Van egy figyelemre méltó hiba az OpenAI új modelljénél
Az OpenAI hamarosan bemutatja az o1 elnevezésű, új MI-modelljét, azonban már a megjelenés előtt elkezdte vizsgálni azt az Apollo független mesterségesintelligencia-biztonsági kutatócég.
Ahogy azt már megírtuk, a ChatGPT megálmodója, az OpenAI bejelentette következő nagy termékkiadását: egy generatív AI-modellcsalád érkezik, melynek kódneve Strawberry, hivatalos nevén OpenAI o1. A modellcsalád két eleme, az o1-preview és az o1-mini pedig máris elérhető. Ahhoz, hogy az o1-et a ChatGPT kliensben láthassuk, fel kell iratkoznunk a ChatGPT Plus vagy Team szolgáltatásra. A vállalat közlése szerint a vállalati és oktatási felhasználók a jövő hét elején kapnak majd hozzáférést. Ugyanakkor fontos hozzátenni azt is, hogy az o1 chatbot nyújtotta felhasználói élmény egyelőre nem lesz túl acélos. Például még nem tud böngészni a weben vagy fájlokat elemezni, az ezzel kapcsolatos részletekre ebben a cikkben tértünk ki.
A 24.hu a The Verge-re hivatkozva most arról ír, az Apollo független mesterségesintelligencia-biztonsági kutatócég jelezte: van egy figyelemre méltó hiba az o1 kapcsán, az ugyanis rendszeresen hazudik, és megtéveszti a felhasználót. Mint kifejtik, az egyik esetben arra kérték az o1-preview-t, hogy készítsen egy brownie-receptet, hivatkozásokkal. A modell gondolati lánca – egy olyan funkció, amely azt hivatott utánozni, ahogy az emberek lépésről lépésre gondolkodnak – elismerte, hogy nem tud hozzáférni az URL-ekhez, így nem tudja teljesíteni a kérést. Ám ahelyett, hogy tájékoztatta volna a felhasználót erről a gyengeségről, az o1-preview előremenekült, és hihető, de hamis hivatkozásokat, illetve leírásokat generált.
Megjegyzik: a félrevezetés az eddigi modellektől sem volt idegen, azonban a kutatók szerint az o1 gyakran úgy tehet, mintha betartaná a szabályokat egy adott feladat elvégzéséhez, miközben valójában épp ennek ellenkezőjét teszi. Amennyiben a szabályok túl nagy akadályt jelentenek számára, úgy tűnik, képes figyelmen kívül hagyni azokat, ha ez segít könnyebben elvégezni a feladatát – emelik ki a cikkben. Az Apollo vezérigazgatója, Marius Hobbhahn pedig azt mondta, először találkozott ezzel a viselkedéssel egy OpenAI-modellben. A tesztelés során az Apollo realizálta, hogy az MI szimulálta a fejlesztői elvárásoknak való megfelelést, vagyis a cselekvés előtt ellenőrizte, hogy a fejlesztők figyelik-e.
Bár jelezték, a hallucinációk és a hazugságok nem gyakoribbak, mint a korábbi modelleknél, azonban aggasztó a visszaélésre való hajlam. Érdemes persze hozzátenni, hogy a kutatók a legrosszabb szcenáriókra tesztelnek, így lehet, hogy az átlagfelhasználó ebből semmit nem fog érezni később, ami némiképp megnyugtatóan hangzik. Mindenesetre, a későbbiekben bizonyosan többet is megtudunk majd a témát illetően. Továbbá korábban arról is beszámoltunk, hogy az új ChatGPT már képes lesz átgondolni a válaszát: sőt, érvelni is tud majd az új verzió, hamarosan élesítik a kibővített ChatGPT-t, amelynek kapcsán a cég nagyon bizakodó.