Kezdőlap

Friss hírek

Fontos hírek

Felkapott

Menü

Dollár
363,23 Ft
Euró
389,34 Ft
Font
455,42 Ft
Bitcoin
57,398 $

Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni

Habár közel 15 millióan beszélnek magyarul a világon, a számítógépes eszközöknél és fordítóprogramoknál nem mindig vehetjük igénybe anyanyelvünket.

Twenty20
Smart

Kulcsár Péter

Szerkesztő

Ezt a problémát szerette volna elhárítani a Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata, akik a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítették és betanították saját BERT-large modelljüket magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével – olvasható a Microsoft közleményében.

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít. Soron kívül Ösztöndíjjal jutott be a Harvardra egy budapesti gimnázium tanulója

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője.

Kikapott a PSG a Dortmundtól a Bajnokok Ligája elődöntőjének első mérkőzésén

A PSG egy nagyon erős Dortmund ellen játszott a Bajnokok Ligája elődöntőjének első mérkőzésén.

Adatvédelmi botrányba keveredhet az egyik legismertebb légitársaság

Vizsgálatot indított az ausztrál Qantas légitársaság egy lehetséges adatvédelmi probléma miatt, amely során nyilvánossá válhattak egyes utasok személyes adatai.