Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni |

Habár közel 15 millióan beszélnek magyarul a világon, a számítógépes eszközöknél és fordítóprogramoknál nem mindig vehetjük igénybe anyanyelvünket.

Ezt a problémát szerette volna elhárítani a Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata, akik a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítették és betanították saját BERT-large modelljüket magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével – olvasható a Microsoft közleményében.

Soron kívülTörténelmi döntés zavarta meg az USA vb-meccsét – senki nem tudta, mi történt

A cikk a videó után folytatódik

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

NE HAGYD KI

Azonnali információk érkeztek a kormánytól – új korszak jöhet a közmédiában

Óriási fordulatot hoz az időjárás Magyarországon, hamarosan vége a hűvös napoknak

Váratlan baleset Szegeden – kereskedésbe csapódott egy autó

Kövess minket a Google-ben

Legyen a Liner a követett forrásod

Jelöld be a Linert követett forrásként a Google-ben.

Beállítom

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője.

A következő cikkhez görgess lejjebb

Kezdőlap

Friss hírek

Fontos hírek

Felkapott

Menü

AKTUÁLIS

ÉLŐ

AKTUÁLIS

Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni

Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni

Legyen a Liner a követett forrásod

NE HAGYD KI

NE HAGYD KI

Legyen a Liner a követett forrásod