Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni |

Habár közel 15 millióan beszélnek magyarul a világon, a számítógépes eszközöknél és fordítóprogramoknál nem mindig vehetjük igénybe anyanyelvünket.

Ezt a problémát szerette volna elhárítani a Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata, akik a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítették és betanították saját BERT-large modelljüket magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével – olvasható a Microsoft közleményében.

Soron kívülLesújtó tragédia történt – 3 fiatal sportoló halt meg edzésre menet

A cikk a videó után folytatódik

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

NE HAGYD KI

Megszületett a döntés – közel 30 magyar klinikán látogatási tilalmat rendeltek el

Megérkeztek a Sziget új fellépői – minden várakozást felülmúlt a 2026-os kínálat

Azonnali közleményt kaptak a kétgyermekes édesanyák a magyar kormánytól

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője.

Kezdőlap

Friss hírek

Fontos hírek

Felkapott

Menü

AKTUÁLIS

ÉLŐ

AKTUÁLIS

Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni

Kétszáz óra alatt megtanítottak egy mesterséges intelligenciával működő rendszert magyarul beszélni

NE HAGYD KI

NE HAGYD KI