Mesterséges intelligencia: ezért fogyhatnak ki a tanulni valóból az AI modellek
Ez lelassíthatja az AI-modellek, különösen a nagy nyelvi modellek növekedését, és még az AI-forradalom pályáját is megváltoztathatja.
Ahogy a mesterséges intelligencia (AI) eléri népszerűsége csúcsát , a kutatók arra figyelmeztettek , hogy az iparág kifogyhat a képzési adatokból – az erős mesterséges intelligencia-rendszereket működtető üzemanyagból.
Miért fontosak a jó minőségű adatok az AI számára?
Sok adatra van szükségünk ahhoz, hogy hatékony, pontos és kiváló minőségű AI-algoritmusokat taníthassunk. Például a ChatGPT-t 570 gigabájt szöveges adatra, azaz körülbelül 300 milliárd szóra képezték ki .
Hasonlóképpen, a stabil diffúziós algoritmust (amely számos mesterséges intelligencia képgeneráló alkalmazás mögött áll, mint például a DALL-E, a Lensa és a Midjourney) az 5,8 milliárd kép-szöveg párból álló LIAON-5B adatkészleten tanulták meg. Ha egy algoritmust nem kellő mennyiségű adatra tanítanak, akkor pontatlan vagy rossz minőségű kimeneteket fog produkálni.
A képzési adatok minősége is fontos. Az alacsony minőségű adatok, például a közösségi médiában közzétett bejegyzések vagy az elmosódott fényképek könnyen beszerezhetők, de nem elegendőek a nagy teljesítményű AI-modellek betanításához.
A közösségi média platformokról vett szövegek elfogultak vagy előítéletesek lehetnek, vagy dezinformációt vagy illegális tartalmat tartalmazhatnak, amelyet a modell reprodukálhat. Például amikor a Microsoft megpróbálta kiképezni a mesterséges intelligencia-botját Twitter-tartalommal, megtanult rasszista és nőgyűlölő eredményeket produkálni .
Ez az oka annak, hogy a mesterséges intelligencia fejlesztői kiváló minőségű tartalmakat keresnek, például könyvekből, online cikkekből, tudományos cikkekből, Wikipédiából és bizonyos szűrt webes tartalmakból származó szövegeket. A Google Asszisztenst 11 000 romantikus regényre képezték ki, amelyeket a Smashwords önkiadó webhelyről vettek át, hogy beszélgetésképesebb legyen.
Van elég adatunk?
Az AI-ipar egyre nagyobb adatkészletekre oktatja a mesterséges intelligencia rendszereit, ezért vannak olyan nagy teljesítményű modelljeink, mint a ChatGPT vagy a DALL-E 3. Ugyanakkor a kutatások azt mutatják, hogy az online adatállományok sokkal lassabban nőnek, mint a használt adatkészletek az AI képzésére.
Egy tavaly megjelent tanulmányban kutatók egy csoportja azt jósolta, hogy 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi mesterséges intelligencia képzési trendek folytatódnak. Becslések szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, a gyenge minőségű képadatok pedig 2030 és 2060 között kimerülnek.
Kell-e aggódnunk?
Bár a fenti pontok megriaszthatják egyes AI-rajongókat, a helyzet nem feltétlenül olyan rossz, mint amilyennek látszik. Sok ismeretlen tény van azzal kapcsolatban, hogy a mesterséges intelligencia modellek hogyan fognak fejlődni a jövőben.
Az egyik lehetőség az AI-fejlesztők számára az algoritmusok fejlesztése, hogy hatékonyabban használják fel a már meglévő adatokat.
Valószínűleg az elkövetkező években képesek lesznek nagy teljesítményű mesterséges intelligenciarendszereket tanítani kevesebb adat és esetleg kisebb számítási teljesítmény felhasználásával. Ez segít csökkenteni a mesterséges intelligencia szénlábnyomát is .
Egy másik lehetőség az AI használata szintetikus adatok létrehozására a rendszerek betanításához. Más szóval, a fejlesztők egyszerűen előállíthatják a számukra szükséges adatokat, amelyeket az adott AI-modellnek megfelelően válogatnak össze.
Kövesse az Egészségkalauz cikkeit a Google Hírek-ben, a Facebook-on, az Instagramon vagy a Twitter-en is!