Webhely ikonra Xpert.Digital

AMI – Fejlett gépi intelligencia – A skálázás vége: Miért nem hisz Yann LeCun már az LLM-ekben?

AMI - Fejlett gépi intelligencia – A skálázás vége: Miért nem hisz Yann LeCun már az LLM-ekben?

AMI – Fejlett gépi intelligencia – A skálázás vége: Miért nem hisz Yann LeCun már az LLM-ekben? – Kép: Xpert.Digital

Zsákutca a szuperintelligencia helyett: Miért mond fel most a Meta fő látnoka?

600 milliárd egy félrevezető megközelítésért? A "mesterséges intelligencia keresztapja" fogad az LLaMA, a ChatGPT és társai ellen.

A bejelentés villámcsapásként érte a technológiai ipart 2025 novemberében. Yann LeCun, a mélytanulás három alapító atyjának egyike és a Meta vezető tudósa bejelentette, hogy tizenkét évnyi munka után távozik a vállalattól, hogy megalapítsa saját startupját. Ez a döntés sokkal több, mint egyetlen tudós személyes karrierdöntése. Alapvető fordulópontot jelent a globális mesterséges intelligencia iparágban, és rávilágít a rövid távú piaci érdekek és a hosszú távú tudományos vízió közötti növekvő szakadékra.

LeCun, aki 2018-ban Geoffrey Hintonnal és Yoshua Bengióval együtt kapta meg a Turing-díjat, a konvolúciós neurális hálózatok építészének tekinthető, amelyek ma a modern képfeldolgozó rendszerek alapját képezik. Távozása egy olyan időszakban történik, amikor az egész iparág több százmilliárd dollárt fektet be nagy nyelvi modellekbe, egy olyan technológiába, amelyet LeCun évek óta alapvető zsákutcaként jellemzett. Új vállalatával a most 65 éves tudós az általa Fejlett Gépi Intelligencia néven emlegetett technológiát kívánja folytatni, amely egy radikálisan eltérő megközelítés, amely világmodelleken alapul, és a fizikai érzékeléssel, nem pedig a szöveggel kezdődik.

Ennek a fejleménynek a gazdasági következményei óriásiak. A Meta maga több mint 600 milliárd dollárt fektetett be mesterséges intelligencia infrastruktúrába az elmúlt három évben. Az OpenAI értékelése elérte a fél billió dollárt, annak ellenére, hogy éves bevétele mindössze tízmilliárd dollár. Az egész iparág egy olyan irányba mozdult el, amelyet az egyik legfontosabb úttörője most nyilvánosan zsákutcának nevezett. Ahhoz, hogy megértsük ennek a változásnak a gazdasági következményeit, mélyrehatóan kell elmerülnünk a jelenlegi mesterséges intelligencia forradalom technikai, szervezeti és pénzügyi struktúráiban.

Alkalmas:

Egy buborék architektúrája

A Google kutatói által 2017-ben bevezetett Transformer architektúra példátlan ütemben alakította át a mesterséges intelligencia világát. Ez a megközelítés tette lehetővé elsőként hatalmas mennyiségű szöveg hatékony feldolgozását és nyelvi modellek betanítását korábban elérhetetlen képességekkel. Az OpenAI erre az alapra építette GPT sorozatát, amely a 2022 novemberi ChatGPT-vel először mutatta be tömegközönségnek, hogy mire képesek ezek a technológiák. A reakció robbanásszerű volt. Néhány hónapon belül több tízmilliárd dollár áramlott az ágazatba.

2024 vége óta azonban egyre több jel utal arra, hogy ez az exponenciális fejlődés eléri a határait. Az OpenAI több mint 18 hónapja fejleszti a GPT-4 utódját, amelyet belsőleg Orion vagy GPT-5 néven emlegetnek. A vállalat állítólag legalább két nagyszabású betanítási futtatást hajtott végre, amelyek mindegyike körülbelül 500 millió dollárba került. Az eredmények kijózanítóak. Míg a GPT-4 hatalmas teljesítménybeli ugrást jelentett a GPT-3-hoz képest, az Orion GPT-4-hez képesti fejlesztései marginálisak. Egyes területeken, különösen a programozásban, a modell gyakorlatilag semmilyen előrelépést nem mutat.

Ez a fejlemény alapvetően ellentmond a skálázási törvényeknek, azoknak az empirikus elveknek, amelyek egészen a közelmúltig az egész iparágat irányították. Az alapötlet egyszerű volt: ha nagyobbá teszünk egy modellt, több adatot használunk a betanításhoz, és nagyobb számítási teljesítményt fektetünk be, a teljesítménynövekedés egy kiszámítható hatványfüggvényt követ. Ez az elv látszólag univerzálisan igaznak bizonyult, és igazolta az elmúlt évek csillagászati ​​beruházásait. Most kiderült, hogy ezek a görbék ellaposodnak. A beruházás következő megduplázódása már nem eredményezi a teljesítmény várt megduplázódását.

Ennek számos és technikailag összetett oka van. Az egyik fő probléma az adatfal. A GPT-4-et körülbelül 13 billió tokennel képezték ki, ami lényegében a teljes nyilvánosan elérhető internet. A GPT-5 számára egyszerűen nincs elegendő új, kiváló minőségű adat. Az OpenAI erre úgy reagált, hogy szoftverfejlesztőket, matematikusokat és elméleti fizikusokat alkalmazott új adatok generálására kódírással és matematikai problémák megoldásával. Azonban még ha 1000 ember napi 5000 szót is előállítana, hónapokba telne mindössze egymilliárd token előállítása. Az ember által generált adatokkal való skálázás egyszerűen nem működik.

Alternatív megoldásként a vállalatok egyre inkább szintetikus adatokra támaszkodnak – azaz más MI-modellek által generált adatokra. De itt egy új veszély leselkedik: a modellek összeomlása. Amikor a modelleket rekurzívan más modellek által generált adatokon képezik ki, a kis hibák generációkon át felerősödnek. Az eredmény olyan modellek, amelyek egyre inkább elszakadnak a valóságtól, és amelyekben az adatokban szereplő kisebbségi csoportok aránytalanul eltűnnek. A Nature folyóiratban 2024-ben megjelent tanulmány kimutatta, hogy ez a folyamat meglepően gyorsan lezajlik. A szintetikus adatok ezért nem csodaszerek, hanem jelentős kockázatokat hordoznak.

Az energetikai átállás és a növekedés korlátai

Az adatkorlát mellett van egy második, még alapvetőbb akadály is: az energiakorlát. A GPT-3 betanítása körülbelül 1300 megawattóra villamos energiát fogyasztott, ami 130 amerikai háztartás éves fogyasztásának felel meg. A GPT-4 becslések szerint ennek 50-szeresét, azaz 65 000 megawattórát igényelt. A nagy mesterséges intelligencia modellek betanításához szükséges számítási teljesítmény nagyjából 100 naponta megduplázódik. Ez az exponenciális görbe gyorsan fizikai korlátokhoz vezet.

Az ilyen modelleket oktató és üzemeltető adatközpontok már most is annyi áramot fogyasztanak, mint a kisvárosok. A Nemzetközi Energiaügynökség előrejelzése szerint az adatközpontok áramfogyasztása 2026-ra 80 százalékkal fog növekedni, a 2022-es 20 terawattóráról 2026-ra 36 terawattórára. A mesterséges intelligencia a növekedés fő mozgatórugója. Összehasonlításképpen, egyetlen ChatGPT lekérdezés körülbelül tízszer annyi energiát fogyaszt, mint egy Google-keresés. Naponta több milliárd lekérdezéssel ez hatalmas mennyiséget jelent.

Ez a fejlemény arra kényszeríti a technológiai vállalatokat, hogy drasztikus intézkedéseket hozzanak. A Microsoft már szerződéseket írt alá nukleáris energiaszolgáltatókkal. A Meta, az Amazon és a Google összesen több mint 1,3 billió dollárt fektet be az elkövetkező években a szükséges infrastruktúra kiépítésébe. Ezek a beruházások azonban fizikai és politikai korlátokba ütköznek. Az Egyesült Államoknak egyszerűen nincs elegendő energiainfrastruktúrája a tervezett MI-adatközpontok működtetéséhez. Az elemzők becslése szerint a 750 milliárd dollár értékű projektek 2030-ra késhetnek az energiainfrastruktúra szűk keresztmetszetei miatt.

Ehhez jön még a geopolitikai dimenzió. A mesterséges intelligencia iparág energiaigénye fokozza az erőforrásokért folytatott versenyt és növeli a fosszilis tüzelőanyagoktól való függőséget. Míg a politikai döntéshozók a klímasemlegességet követelik, a mesterséges intelligencia iparág növeli az energiafogyasztást. Ez a feszültség az elkövetkező években súlyosbodni fog, és olyan szabályozási beavatkozásokhoz vezethet, amelyek korlátozzák az iparág növekedését.

Az építészeti fal és LeCun alternatívája

A harmadik akadály talán a legalapvetőbb: az építészeti fal. Yann LeCun évek óta érvel amellett, hogy a Transformer architektúrának olyan inherens korlátai vannak, amelyeket nem lehet egyszerűen skálázással leküzdeni. Kritikája a nagy nyelvi modellek (LNM) alapvető működésére összpontosít. Ezeket a rendszereket arra képezik ki, hogy megjósolják a következő szót egy sorozatban. Statisztikai mintákat tanulnak hatalmas szöveges korpuszokban, de nem fejlesztik ki az oksági összefüggések, a fizikai törvények vagy a hosszú távú tervezés valódi megértését.

LeCun egy összehasonlítással szereti illusztrálni a problémát: Egy négyéves gyermek több információt szívott magába a világról vizuális érzékelésen keresztül, mint a legnagyobb nyelvi modellek szövegen keresztül. A gyermek ösztönösen megérti, hogy a tárgyak nem tűnnek el egyszerűen, hogy a nehéz dolgok leesnek, és hogy a cselekedeteknek következményeik vannak. Kifejlesztett egy világmodellt, a fizikai valóság belső reprezentációját, amelyet előrejelzésekre és cselekvések megtervezésére használ. Az LLM-ek nem rendelkeznek ezzel az alapvető képességgel. Lenyűgözően összefüggő szöveget tudnak generálni, de nem értik a világot.

Ez a korlátozás újra és újra nyilvánvalóvá válik a gyakorlati alkalmazásokban. Ha arra kérjük a GPT-4-et, hogy vizualizáljon egy forgó kockát, akkor kudarcot vall egy olyan feladatban, amelyet bármelyik gyerek könnyen elvégezhet. A többlépéses tervezést igénylő összetett feladatoknál a modellek rendszeresen kudarcot vallanak. Nem tudnak megbízhatóan tanulni a hibákból, mivel minden token predikciós hiba potenciálisan kaszkádszerűvé válik és felerősödik. Az autoregresszív modellek alapvetően sebezhetőek: a sorozat elején egy hiba tönkreteheti az egész eredményt.

A LeCun alternatívája a Joint Embedding Predictive Architecture-ön alapuló világmodell. Az alapötlet az, hogy a mesterséges intelligencia rendszereinek nem szöveges predikcióval, hanem a jövőbeli állapotok absztrakt reprezentációinak előrejelzésével kellene tanulniuk. A pixelenkénti vagy tokenenkénti generálás helyett a rendszer a világ egy tömörített, strukturált reprezentációját tanulja meg, és ezt felhasználhatja különböző forgatókönyvek mentális szimulálására, mielőtt cselekszik.

A LeCun vezetésével a Meta már számos implementációt fejlesztett ki ebből a megközelítésből. Az I-JEPA képekhez és a V-JEPA videókhoz ígéretes eredményeket mutat. Ezek a modellek magas szintű objektumkomponenseket és azok térbeli kapcsolatait tanulják meg intenzív adatgyűjtés nélkül. Emellett lényegesen energiahatékonyabbak a betanításukban, mint a hagyományos modellek. A cél az, hogy ezeket a megközelítéseket hierarchikus rendszerekké kombinálják, amelyek különböző absztrakciós szinteken és időskálákon működhetnek.

A döntő különbség a tanulási folyamat természetében rejlik. Míg az LLM-ek lényegében szteroidokon végzik a mintaillesztést, a világmodellek célja a valóság szerkezetének és oksági viszonyainak megragadása. Egy robusztus világmodellel rendelkező rendszer előre láthatja cselekedetei következményeit anélkül, hogy ténylegesen végre kellene hajtania azokat. Néhány példából is tanulhat, mert megérti az alapelveket, nem csak a felszínes összefüggéseket.

Szervezeti diszfunkció és a Meta egzisztenciális válsága

LeCun távozása azonban nem pusztán tudományos döntés, hanem a Meta szervezeti működési zavarainak eredménye is. 2025 júniusában Mark Zuckerberg vezérigazgató bejelentette a mesterséges intelligencia részlegek nagyszabású átszervezését. Megalapította a Meta Superintelligence Labs-ot, egy új egységet, amelynek kimondott célja a mesterséges intelligencia fejlesztése. Az egységet Alexandr Wang, a Scale AI, egy adatfeldolgozó cég 28 éves korábbi vezérigazgatója vezette. A Meta 14,3 milliárd dollárt fektetett be a Scale AI-ba, és több mint 50 mérnököt és kutatót toborzott a versenytársaktól.

Ez a döntés a feje tetejére állította a meglévő struktúrát. A LeCun Fundamental MI Kutatócsoportja, amely éveket töltött a PyTorch és az első Llama modellek fejlesztésével, marginalizálódott. A FAIR az öt-tíz éves időhorizontra épülő alapkutatásra irányult, míg az új szuperintelligencia laboratóriumok a rövid távú termékfejlesztésre összpontosítottak. Források szerint egyre növekvő káosz uralkodik a Meta MI-osztályain. Az újonnan felvett tehetségek csalódottságukat fejezték ki egy nagyvállalat bürokráciája miatt, míg a már meglévő csapatok befolyása csökkenni látszott.

A helyzet tovább romlott a mindössze hat hónap alatt végrehajtott számos átszervezés miatt. 2025 augusztusában a Superintelligence Labs-t ismét átszervezték, ezúttal négy alegységre osztva: egy rejtélyes, még meghatározandó laboratóriumra az új modellek számára, egy termékcsapatra, egy infrastruktúra-csapatra és a FAIR-re. Októberben újabb elbocsátási hullám következett, amelynek során körülbelül 600 alkalmazottat helyeztek végkielégítésre. A megadott ok: a szervezeti komplexitás csökkentése és a mesterséges intelligencia fejlesztésének felgyorsítása.

Ezek az állandó átszervezések szöges ellentétben állnak a versenytársak, mint például az OpenAI, a Google és az Anthropic relatív stabilitásával. A Meta alapvető bizonytalanságára utalnak a helyes stratégiai irányt illetően. Zuckerberg felismerte, hogy a Meta lemarad az MI dominanciájáért folytatott versenyben. A 2025 áprilisában indult Llama 4 csalódást okozott. Bár a Maverick modell jó hatékonyságot mutatott, hosszabb távon drámai kudarcot vallott. Felmerültek olyan állítások, hogy a Meta a benchmarkokhoz optimalizált azáltal, hogy kifejezetten a gyakori tesztkérdésekre képezte a modelleket, mesterségesen felfújva a teljesítményt.

LeCun számára a helyzet tarthatatlanná vált. A hosszú távú alapkutatásról alkotott elképzelései ütköztek a rövid távú terméksikerek elérésére irányuló nyomással. Az a tény, hogy gyakorlatilag a jóval fiatalabb Wangnak volt alárendelve, valószínűleg hozzájárult a döntéséhez. Búcsúlevelében LeCun hangsúlyozza, hogy Meta továbbra is partner marad új cégében, de az üzenet világos: a független kutatás, amelyet elengedhetetlennek tart, a vállalati struktúrákon belül már nem lehetséges.

 

A digitális átalakulás új dimenziója a „menedzselt MI” (mesterséges intelligencia) segítségével - Platform és B2B megoldás | Xpert Consulting

A digitális átalakulás új dimenziója a „menedzselt MI” (mesterséges intelligencia) segítségével – Platform és B2B megoldás | Xpert Consulting - Kép: Xpert.Digital

Itt megtudhatja, hogyan valósíthat meg vállalata testreszabott mesterséges intelligencia megoldásokat gyorsan, biztonságosan és magas belépési korlátok nélkül.

Egy menedzselt MI platform egy átfogó, gondtalan csomag a mesterséges intelligencia területén. Ahelyett, hogy komplex technológiával, drága infrastruktúrával és hosszadalmas fejlesztési folyamatokkal kellene bajlódnia, egy specializált partnertől kap egy az Ön igényeire szabott, kulcsrakész megoldást – gyakran néhány napon belül.

A legfontosabb előnyök áttekintése:

⚡ Gyors megvalósítás: Az ötlettől a gyakorlati alkalmazásig napok, nem hónapok alatt. Gyakorlati megoldásokat szállítunk, amelyek azonnal értéket teremtenek.

🔒 Maximális adatbiztonság: Érzékeny adatai Önnél maradnak. Garantáljuk a biztonságos és megfelelő feldolgozást anélkül, hogy megosztanánk az adatokat harmadik felekkel.

💸 Nincs pénzügyi kockázat: Csak az eredményekért fizet. A hardverbe, szoftverbe vagy személyzetbe történő magas előzetes beruházások teljesen elmaradnak.

🎯 Koncentráljon a fő üzleti tevékenységére: Koncentráljon arra, amiben a legjobb. Mi kezeljük AI-megoldásának teljes technikai megvalósítását, üzemeltetését és karbantartását.

📈 Jövőálló és skálázható: A mesterséges intelligencia veled együtt növekszik. Biztosítjuk a folyamatos optimalizálást és skálázhatóságot, és rugalmasan igazítjuk a modelleket az új követelményekhez.

Bővebben itt:

 

A felhajtástól a valóságig: A mesterséges intelligencia iparág küszöbön álló újraértékelése

A hólyagképződés gazdasági anatómiája

A Meta fejleményei a mesterséges intelligencia iparág szélesebb körű gazdasági dinamikájának tünetei. A ChatGPT 2022 végi áttörése óta példátlan befektetési fellendülés bontakozott ki. Csak 2025 első negyedévében 73,1 milliárd dollár áramlott mesterséges intelligencia startupokba, ami az összes kockázati tőkebefektetés 58 százalékát teszi ki. Az OpenAI értékelése elérte az 500 milliárd dollárt, ezzel az első magánvállalattá vált, amely átlépte ezt a küszöböt anélkül, hogy valaha is nyereséges lett volna.

Az értékelések vadul aránytalanok a tényleges bevételekhez képest. Az OpenAI 2025-ben 10 milliárd dolláros éves bevételt generált 500 milliárd dolláros értékelés mellett, ami 50-es árbevétel-árbevétel arányt eredményezett. Összehasonlításképpen, még a dot-com lufi csúcspontján is kevés vállalat ért el ilyen többszörösöket. Az Anthropic értéke 170 milliárd dollár, bevétele 2,2 milliárd dollár, P/E aránya pedig körülbelül 77. Ezek a számok hatalmas túlértékelésre utalnak.

Különösen problematikus a kialakult körkörös finanszírozási struktúra. Az Nvidia 100 milliárd dollárt fektet be az OpenAI-ba, amely viszont több tízmilliárd dollár értékű Nvidia chipet köteles vásárolni. Az OpenAI hasonló, több tízmilliárd dollár értékű üzleteket kötött az AMD-vel. A Microsoft több mint 13 milliárd dollárt fektetett be az OpenAI-ba, és infrastruktúráját az Azure-on üzemelteti. Az Amazon 8 milliárd dollárt fektetett be az Anthropicba, amely cserébe az AWS-t használja elsődleges felhőplatformként, és az Amazon saját MI chipjeit alkalmazza.

Ezek a megoldások kísértetiesen emlékeztetnek az 1990-es évek végi körforgásos finanszírozásra, amikor a technológiai vállalatok berendezéseket adtak el egymásnak, és a tranzakciókat bevételként könyvelték el anélkül, hogy valódi gazdasági értéket generáltak volna. Az elemzők egyre összetettebb és átláthatatlanabb üzleti kapcsolatok hálózatáról beszélnek, amelyek egy billió dolláros fellendülést táplálnak. A dot-com buborékkal és a 2008-as pénzügyi válsággal való párhuzamok félreérthetetlenek: átláthatatlan és nem konvencionális finanszírozási mechanizmusok, amelyeket a befektetők nehezen értenek és értékelnek.

Ehhez jön még a tőkekoncentráció. A hét legnagyobb amerikai technológiai vállalat, a Magnificent Seven, 19 százalékkal növelte energiafogyasztását 2023-ban, míg az S&P 500-as vállalatok mediánfogyasztása stagnált. Az amerikai tőzsdei nyereség körülbelül 80 százaléka 2025-ben mesterséges intelligenciával kapcsolatos vállalatoknak volt tulajdonítható. Az Nvidia önmagában lett a lakossági befektetők által leggyakrabban vásárolt részvény, akik 2024-ben közel 30 milliárd dollárt fektettek a chipgyártóba.

Ez a szélsőséges koncentráció rendszerszintű kockázatokat hordoz magában. Ha a hozamelvárások irreálisnak bizonyulnak, a piaci összeomlásnak messzemenő következményei lehetnek. A JPMorgan becslése szerint a mesterséges intelligenciához kapcsolódó befektetési minőségű kötvénykibocsátások önmagukban elérhetik az 1,5 billió dollárt 2030-ra. Ennek az adósságnak a nagy része azon a feltételezésen alapul, hogy a mesterséges intelligenciarendszerek hatalmas termelékenységi növekedést fognak generálni. Amennyiben ez a várakozás nem valósul meg, hitelválság fenyeget.

Alkalmas:

A tehetségek harca és a társadalmi felfordulás

A gazdasági feszültségek a munkaerőpiacon is megnyilvánulnak. A nyitott MI-pozíciók és a képzett jelöltek aránya 3,2:1. 1,6 millió nyitott pozíció van, de csak 518 000 képzett jelentkező. Ez a szélsőséges hiány csillagászati ​​magasságokba repíti a fizetéseket. A MI-szakemberek több tízezer dollárral is növelhetik éves jövedelmüket, ha Python, TensorFlow vagy speciális MI-keretrendszerek ismeretét szerzik meg.

A verseny kegyetlen. Nagy technológiai vállalatok, jól finanszírozott startupok és még kormányok is versengenek ugyanazért a kis szakértői csoportért. Az OpenAI az elmúlt hónapokban vezetőinek elvándorlását tapasztalta, köztük Ilya Sutskever társalapítót és Mira Murati technológiai igazgatót. Ezen tehetséges egyének közül sokan saját startupokat indítanak, vagy versenytársakhoz kerülnek. A Meta agresszíven toboroz az OpenAI-tól, az Anthropic-tól és a Google-től. Az Anthropic a Metától és az OpenAI-tól toboroz.

Ennek a dinamikának számos következménye van. Először is, széttöredezi a kutatási környezetet. Ahelyett, hogy közös célok felé törekednének, a különböző szervezeteken belüli kis csapatok ugyanazon áttörésekért versenyeznek. Másodszor, növeli a költségeket. A mesterséges intelligencia szakértőinek hatalmas fizetései csak a jól tőkésített vállalatok számára tarthatók fenn, ami kizárja a kisebb szereplőket a piacról. Harmadszor, késlelteti a projekteket. A vállalatok arról számolnak be, hogy a nyitott pozíciók hónapokig betöltetlenek maradnak, ami megzavarja a fejlesztési ütemtervet.

A társadalmi következmények messze túlmutatnak a technológiai szektoron. Ha a mesterséges intelligencia valóban a következő ipari forradalmat képviseli, akkor a munkaerőpiac hatalmas felfordulása küszöbön áll. Az első ipari forradalommal ellentétben, amely elsősorban a fizikai munkát érintette, a mesterséges intelligencia a kognitív feladatokat célozza meg. Nemcsak az egyszerű adatbevitel és az ügyfélszolgálat van veszélyben, hanem potenciálisan a magasan képzett szakmák, például a programozók, tervezők, ügyvédek és újságírók is.

Egy, a befektetési menedzsment iparágról szóló tanulmány szerint a mesterséges intelligencia és a big data miatt a munkabérből származó jövedelem aránya öt százalékkal csökken. Ez összehasonlítható az ipari forradalom során bekövetkezett elmozdulásokkal, amelyek 5-15 százalékos csökkenést okoztak. A döntő különbség: a jelenlegi átalakulás évek, nem évtizedek alatt zajlik. A társadalmaknak kevés idejük van az alkalmazkodásra.

Tesztidős számítás és a paradigmaváltás

Miközben az előtanítás skálázási törvényei kezdenek elérkezni a határaikhoz, egy új paradigma jelent meg: a tesztidőszakos számítási skálázás. Az OpenAI o1 modelljei bebizonyították, hogy jelentős teljesítménynövekedés érhető el, ha nagyobb számítási teljesítményt fektetünk be a következtetés során. A modell méretének egyszerű növelése helyett ezek a rendszerek lehetővé teszik a modell számára, hogy hosszabb ideig gondolkodjon egy lekérdezésen, több megközelítést alkalmazzon a megoldására, és önellenőrzze a válaszait.

A kutatások azonban azt mutatják, hogy ennek a paradigmának vannak korlátai is. A szekvenciális skálázás, amelyben egy modell többször végigmegy ugyanazon a problémán, nem vezet folyamatos fejlesztésekhez. A Deepseeks R1 és a QwQ modelleken végzett tanulmányok azt mutatják, hogy a hosszabb gondolkodási folyamatok nem hoznak automatikusan jobb eredményeket. Gyakran a modell javítja ki a helyes válaszokat a helytelenekre, ahelyett, hogy fordítva. A hatékony szekvenciális skálázáshoz szükséges önrevíziós kapacitás nincs kellően fejlett.

A párhuzamos skálázás, ahol egyszerre több megoldást generálnak, és a legjobbat választják ki, jobb eredményeket mutat. Azonban itt is csökken a határhaszon a befektetett számítási teljesítmény minden egyes megduplázódásával. A költséghatékonyság gyorsan csökken. A kereskedelmi alkalmazások esetében, amelyeknek naponta több millió lekérdezésre kell válaszolniuk, a költségek megfizethetetlenek.

Az igazi áttörés a különböző megközelítések kombinálásában rejlik. A Transformers és az Állapottér-modellek kombinációját alkalmazó hibrid architektúrák ígéretes megoldást kínálnak mindkét modell erősségeinek egyesítésére. Az olyan állapottér-modellek, mint a Mamba, lineáris skálázási viselkedést kínálnak a következtetésben, míg a Transformers kiválóan alkalmasak a hosszú távú függőségek rögzítésére. Az ilyen hibrid rendszerek újra egyensúlyba hozhatják a költség-minőség egyenletet.

Alternatív architektúrák és a Transformers utáni jövő

A világmodellek mellett számos alternatív architektúra jelenik meg, amelyek megkérdőjelezhetik a Transformers dominanciáját. Az állapottér-modellek jelentős előrelépést tettek az elmúlt években. Az S4, a Mamba és a Hyena bemutatja, hogy a hatékony hosszú kontextusú gondolkodás lineáris komplexitással lehetséges. Míg a Transformers a szekvenciahosszal négyzetesen skálázódik, az SSM-ek lineáris skálázást érnek el mind a betanítás, mind a következtetés során.

Ezek a hatékonyságnövekedések kulcsfontosságúak lehetnek, amikor a mesterséges intelligencia rendszereket éles környezetben telepítik. A következtetések költségeit gyakran alábecsülik. A betanítás egyszeri befektetés, de a következtetés folyamatosan fut. A ChatGPT soha nincs offline állapotban. Naponta több milliárd lekérdezés mellett még a kis hatékonyságnövelés is hatalmas költségmegtakarítást eredményez. Egy olyan modell, amely ugyanazon minőség eléréséhez feleannyi számítási teljesítményt igényel, óriási versenyelőnnyel rendelkezik.

A kihívás ezen technológiák kiforrottságában rejlik. A transzformátorok közel nyolc év előnnyel rendelkeznek, és hatalmas eszköz-, könyvtár- és szakértelem-ökoszisztémával rendelkeznek. Az alternatív architektúráknak nemcsak technikailag jobbaknak, hanem gyakorlatilag is használhatóaknak kell lenniük. A technológia története tele van technikailag kiváló megoldásokkal, amelyek a megfelelő ökoszisztéma hiánya miatt vallottak kudarcot a piacon.

Érdekes módon a kínai versenytársak is alternatív megközelítésekre támaszkodnak. A DeepSeek V3, egy nyílt forráskódú modell 671 milliárd paraméterrel, egy vegyes szakértői architektúrát használ, amelyben tokenenként mindössze 37 milliárd paraméter aktiválódik. A modell a benchmarkokban a nyugati versenytársakéhoz hasonló teljesítményt ér el, de a betanításuk költségeinek töredékéért történt. A betanítási idő mindössze 2,788 millió H800 GPU óra volt, ami jelentősen kevesebb, mint a hasonló modellek esetében.

Ez a fejlemény azt mutatja, hogy a technológiai vezető szerep nem feltétlenül a pénzügyileg legbefolyásosabb szereplők kezében van. Az okos építészeti döntések és optimalizálások kompenzálhatják az erőforrás-előnyöket. A globális MI-táj számára ez a multipolaritás fokozódását jelenti. Kína, Európa és más régiók saját megközelítéseket dolgoznak ki, amelyek nem csupán a nyugati modellek másolatai.

Az újraértékelés és az elkerülhetetlen másnaposság

Mindezen tényezők konvergenciája a mesterséges intelligencia iparág küszöbön álló újraértékelésére utal. A jelenlegi értékelések a folyamatos exponenciális növekedés feltételezésén alapulnak, mind a modellek teljesítményében, mind a kereskedelmi alkalmazásban. Mindkét feltételezés egyre inkább megkérdőjelezhetővé válik. A modellek teljesítménye stagnál, miközben a költségek továbbra is meredeken emelkednek. Bár a kereskedelmi alkalmazás növekszik, a monetizáció továbbra is kihívást jelent.

Az OpenAI-nak, fél billió dolláros értékelésével, legalább 100 milliárd dolláros éves bevételre kellene nőnie, és az elkövetkező években nyereségessé kellene válnia ahhoz, hogy igazolja az értékelését. Ez néhány év alatt tízszeres növekedést jelentene. Összehasonlításképpen, a Google-nek több mint egy évtizedbe telt, mire 10 milliárd dollárról 100 milliárd dollárra növelte bevételét. Az MI-cégekkel szembeni elvárások irreálisan magasak.

Az elemzők a mesterséges intelligencia lufi kipukkadására figyelmeztetnek. A dot-com lufival való párhuzamok nyilvánvalóak. Akkor, mint most, ott van a forradalmi technológia, hatalmas potenciállal. Aztán, mint most, ott vannak az irracionálisan felfújt értékelések és a körkörös finanszírozási struktúrák. Akkor, mint most, a befektetők azzal igazolják az abszurd értékeléseket, hogy a technológia mindent megváltoztat, és hogy a hagyományos értékelési mérőszámok már nem alkalmazhatók.

A döntő különbség: Sok dotcom céggel ellentétben a mai mesterséges intelligenciával foglalkozó cégek valóban működő, valódi értéket képviselő termékekkel rendelkeznek. A ChatGPT nem vaporware, hanem egy olyan technológia, amelyet naponta emberek milliói használnak. A kérdés nem az, hogy a mesterséges intelligencia értékes-e, hanem az, hogy elég értékes-e ahhoz, hogy igazolja a jelenlegi értékeléseket. A válasz valószínűleg nem.

Amikor eljön az újraértékelés, az fájdalmas lesz. A kockázati tőkealapok tőkéjük 70 százalékát mesterséges intelligenciába fektették. A nyugdíjalapok és az intézményi befektetők hatalmas mértékben ki vannak téve a kockázatnak. A mesterséges intelligencia értékelésének jelentős csökkenése messzemenő pénzügyi következményekkel járna. Az olcsó finanszírozásra támaszkodó vállalatok hirtelen nehézségekbe ütköznének a tőkebevonásban. A projektek leállnának, és az alkalmazottakat elbocsátanák.

A hosszú távú perspektíva és a jövő útja

Ezen rövid távú kilátások ellenére a mesterséges intelligencia hosszú távú potenciálja továbbra is óriási. A jelenlegi felhajtás nem változtat a technológia alapvető fontosságán. A kérdés nem az, hogy vajon a mesterséges intelligencia beváltja-e az ígéretét, hanem az, hogy hogyan és mikor. A LeCun rövid távú termékfejlesztésről hosszú távú alapkutatásra való átállása erre mutat utat.

A mesterséges intelligenciarendszerek következő generációja valószínűleg másképp fog kinézni, mint a mai LLM-ek. Egyesíti majd a világmodellek, az alternatív architektúrák és az új képzési paradigmák elemeit. Kevésbé fog a nyers erő skálázásra, és inkább a hatékony, strukturált reprezentációkra támaszkodni. A fizikai világból fog tanulni, nem csak a szövegből. És az oksági összefüggéseket fogja megérteni, nem csak a korrelációkat.

Ez a vízió azonban időt, türelmet és az alapkutatások elvégzésének szabadságát igényli. Pontosan ezeket a feltételeket nehéz megtalálni a jelenlegi piaci környezetben. Óriási a nyomás a gyors kereskedelmi siker elérésére. A negyedéves jelentések és értékelési körök uralják a napirendet. A hosszú távú kutatási programokat, amelyek eredményeinek megszületése évekig is eltarthat, nehéz igazolni.

LeCun döntése, hogy 65 évesen startupot alapított, figyelemre méltó kijelentés. Minden kitüntetéssel és garantált hellyel a történelemben vonulhatott volna nyugdíjba. Ehelyett a nehéz utat választotta, és egy olyan víziót követett, amelyet az iparági mainstream elutasított. A Meta partner marad, ami azt jelenti, hogy a cégének lesznek erőforrásai, legalábbis kezdetben. De a valódi sikere azon múlik, hogy az elkövetkező években be tudja-e bizonyítani, hogy a fejlett gépi intelligencia valóban jobb.

Az átalakulás évekig fog tartani. Még ha LeCunnak igaza is van, és a világmodellek alapvetően jobbak, azokat továbbra is fejleszteni, optimalizálni és iparosítani kell. Az ökoszisztémát fel kell építeni. A fejlesztőknek meg kell tanulniuk az új eszközök használatát. A vállalatoknak át kell térniük az LLM-ekről az új rendszerekre. Ezek az átmeneti szakaszok történelmileg mindig is fájdalmasak voltak.

A felhajtástól a valóságig: A mesterséges intelligencia hosszú távú cselekvési iránya

Yann LeCun távozása a Metától többet jelent, mint pusztán személyi változást. Szimbolizálja a tudományos vízió és a kereskedelmi pragmatizmus, a hosszú távú innováció és a rövid távú piaci igények közötti alapvető feszültséget. A jelenlegi mesterséges intelligencia forradalom fordulóponthoz érkezett. A skálázás könnyű sikerei kimerültek. A következő lépések nehezebbek, drágábbak és bizonytalanabbak lesznek.

A befektetők számára ez azt jelenti, hogy a jelenlegi mesterséges intelligencia-bajnokok túlzó értékeléseit kritikusan meg kell vizsgálni. A vállalatok számára ez azt jelenti, hogy a mesterséges intelligencia által nyújtott gyors termelékenységi csodák reménye csalódhat. A társadalom számára pedig azt, hogy az átalakulás lassabb és egyenetlenebb lesz, mint ahogy azt a felhajtás sugallja.

Ugyanakkor az alapok továbbra is szilárdak. A mesterséges intelligencia nem múló divat, hanem egy alapvető technológia, amely hosszú távon gyakorlatilag a gazdaság minden szektorát átalakítja. A párhuzamok az ipari forradalommal találóak. Ahogy akkor is, lesznek nyertesek és vesztesek, túlkapások és korrekciók, felfordulások és kiigazítások. A kérdés nem az, hogy a transzformátor architektúra elérte-e képességeinek végét, hanem az, hogy milyen lesz a következő fázis, és ki fogja alakítani.

A LeCun tétje a fejlett gépi intelligenciára és a világmodellekre merész, de előrelátónak bizonyulhat. Öt év múlva tudni fogjuk, hogy helyes döntés volt-e elszakadni a fősodortól, vagy az iparág tartotta-e a helyes utat. Az elkövetkező évek kulcsfontosságúak lesznek a mesterséges intelligencia hosszú távú fejlődése, és következésképpen a gazdasági és társadalmi jövő szempontjából.

 

Amerikai szakértelmünk az üzletfejlesztés, az értékesítés és a marketing területén

Amerikai szakértelmünk az üzletfejlesztés, az értékesítés és a marketing területén - Kép: Xpert.Digital

Iparági fókusz: B2B, digitalizáció (AI-tól XR-ig), gépészet, logisztika, megújuló energiák és ipar

Bővebben itt:

Egy témaközpont betekintésekkel és szakértelemmel:

  • Tudásplatform a globális és regionális gazdaságról, az innovációról és az iparágspecifikus trendekről
  • Elemzések, impulzusok és háttérinformációk gyűjtése fókuszterületeinkről
  • Szakértelem és információk helye az üzleti és technológiai fejleményekről
  • Témaközpont olyan vállalatok számára, amelyek a piacokról, a digitalizációról és az iparági innovációkról szeretnének többet megtudni

 

Az Ön globális marketing- és üzletfejlesztési partnere

☑️ Üzleti nyelvünk angol vagy német

☑️ ÚJ: Levelezés az Ön nemzeti nyelvén!

 

Konrad Wolfenstein

Szívesen szolgálok Önt és csapatomat személyes tanácsadóként.

Felveheti velem a kapcsolatot az itt található kapcsolatfelvételi űrlap kitöltésével , vagy egyszerűen hívjon a +49 89 89 674 804 (München) . Az e-mail címem: wolfenstein xpert.digital

Nagyon várom a közös projektünket.

 

 

☑️ KKV-k támogatása stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ Digitális stratégia és digitalizáció megalkotása vagy átrendezése

☑️ Nemzetközi értékesítési folyamatok bővítése, optimalizálása

☑️ Globális és digitális B2B kereskedési platformok

☑️ Úttörő üzletfejlesztés / Marketing / PR / Szakkiállítások

 

🎯🎯🎯 Profitáljon az Xpert.Digital széleskörű, ötszörös szakértelméből egy átfogó szolgáltatáscsomagban | BD, K+F, XR, PR és digitális láthatóság optimalizálása

Profitáljon az Xpert.Digital széleskörű, ötszörös szakértelméből egy átfogó szolgáltatáscsomagban | K+F, XR, PR és digitális láthatóság optimalizálása - Kép: Xpert.Digital

Az Xpert.Digital mélyreható ismeretekkel rendelkezik a különböző iparágakról. Ez lehetővé teszi számunkra, hogy személyre szabott stratégiákat dolgozzunk ki, amelyek pontosan az Ön konkrét piaci szegmensének követelményeihez és kihívásaihoz igazodnak. A piaci trendek folyamatos elemzésével és az iparági fejlemények követésével előrelátóan tudunk cselekedni és innovatív megoldásokat kínálni. A tapasztalat és a tudás ötvözésével hozzáadott értéket generálunk, és ügyfeleink számára meghatározó versenyelőnyt biztosítunk.

Bővebben itt:

Lépjen ki a mobil verzióból