Gemini 3.5 vagy akár 4.0? Kódnév: "Snow Bunny": Kiszivárgott benchmark adatok egy állítólagosan új Google modellről

Konrad Wolfenstein

6 hónappal ezelőtt

Gemini 3.5 vagy akár 4.0? Kódnév: "Snow Bunny": Kiszivárgott benchmark adatok egy állítólagosan új Google-modellről – Kép: Xpert.Digital

A mesterséges intelligencia fordulópontja? A Google technológiai áttörése, amely újraértelmezi a globális versenyképességet?

Mérnöki kaland a kognitív forradalom küszöbén

A 2026 januárjában kiszivárgott, állítólagosan új, „Hónyuszi” kódnevű Google-modell benchmark adatai a mesterséges intelligencia mélyreható fordulópontját szimbolizálják, amely messze túlmutat a puszta számjátékokon. A modellfejlesztés fokozatos előrehaladása helyett ezek az adatok egy olyan jelenséget tárnak fel, amely az emberi gondolkodás alapvető architektúráját szövi be a mesterséges intelligencia technikai alapjaiba. A teljesítménybeli különbségek nem pusztán numerikusak, hanem minőségileg átalakító jellegűek, közvetlen következményekkel járva az európai és német iparpolitikára, valamint az USA, Kína és a széttöredezett Európa technológiai nagyhatalmai közötti verseny jövőjére nézve.

A hieroglifákra épülő teszt, amelyen a Snowbunny állítólag 80 százalékos sikerességi arányt ér el – jóval megelőzve a GPT-5.2 55 százalékos és a Gemini 3.0 Pro 45 százalékos eredményét –, nem egyszerűen a tudást vagy a mintázatfelismerést teszteli, hanem a laterális gondolkodást. A laterális gondolkodás az emberi képesség arra, hogy összefüggéseket lássunk a nem összefüggő fogalmak között, kreatívan megkerüljük a bevett gondolkodási mintákat, és szokatlan szemszögből közelítsük meg a problémákat. Ez egy olyan mechanizmus, amely dacol a pusztán statisztikai előrejelzéssel, és ez az oka annak, hogy a kreativitás, az innováció és a valódi problémamegoldás nem pusztán a skálázásból fakad. Az akadémiai kutatások következetesen dokumentálják, hogy még a legjobb elérhető modellek is 50 százalék alatt teljesítenek a laterális gondolkodási feladatokban. Úgy tűnik, hogy a Snowbunny jelentősen túllépte ezt a küszöböt.

Az alapul szolgáló technikai újítás mélyreható a rendszerarchitektúra szempontjából. A Google nyilvánvalóan megvalósította azt, amit az MI-kutatásban 2025 óta intenzíven folytatnak: a kognitív gondolkodás felosztását arra, amit Daniel Kahneman pszichológus „1. rendszer” és „2. rendszer” gondolkodásnak nevez. Az 1. rendszer a statisztikai minták villámgyors, intuitív gondolkodása. A 2. rendszer a lassú, megfontolt gondolkodás, amely lépéseket számol, megkérdőjelezi a feltételezéseket, és párhuzamosan több megoldási utat értékel ki. A korábbi modellek, mint például a GPT-5.2 vagy a Gemini 3.0, elsősorban az 1. rendszert, a nyers sebességű mintaillesztési képességet optimalizálják, némi felszínes kísérlettel a lassabb gondolkodás színlelésére a gondolatlánc-promptokon keresztül. A Snowbunny architektúrája valóban mélyebb érvelési keretrendszert valósít meg – olyat, amely valóban több gondolati utat követ párhuzamosan, hipotéziseket tesztel, és iteratívan finomítja azokat.

A biztonsági fókusz továbbra is átlátható, és már nem pusztán költségtényező

A kiszivárogtatások egyik részlete különösen jelentős a szakértők számára: a modell mindkét verziója, a „nyers” és a szigorúbb biztonsági szűrőkkel ellátott „kevésbé nyers” változat, azonos 80 százalékos sikerrátát ér el. Ez ellentmond a mesterséges intelligencia kutatásában régóta fennálló feltételezésnek, miszerint a biztonsági összehangolás – a problémás kimenetek elleni képzés – szükségszerűen rontja a tiszta kognitív teljesítményt. Ha a Google-nek sikerült megoldania ezt a klasszikus hatékonyság-biztonság kompromisszumot, az nem triviális áttörést jelent a képzés utáni módszertanban. A következmények mélyrehatóak: azt sugallják, hogy a biztonságnak és a képességnek nem kell antagonisztikusnak lenniük, hanem az átalakított képzési folyamatok egyszerre maximalizálhatják mindkettőt.

Maguk az összehasonlító adatok óvatosságot igényelnek. A benchmark képernyőképek könnyen manipulálhatók, és bár a Hieroglyph teszt ismert az akadémiai körökben, nem annyira széles körben elterjedt és szabványosított, mint a klasszikus MMLU (Massive Multitask Language Understanding) teszt, amely továbbra is az általános műveltség aranystandardja. A kiszivárgott adatok azonban összhangban vannak a Google nyilvános bejelentéseivel, mivel a vállalat 2025 novemberében bevezette a "Gemini Deep Think" nevű funkciót – egy olyan módot, amelyben a Gemini modelleknek több idejük van gondolkodni a válaszadás előtt, és amely mérhető javulást ér el olyan bevett benchmarkokhoz képest, mint az ARC-AGI-2 (45,1 százalék) és a GPQA Diamond (93,8 százalék). Ezek a nyilvánosan ellenőrzött adatok és a kiszivárgott Hieroglyph eredmények hasonló nyelvet beszélnek: elérték azt a pontot, ahol a számítási teljesítmény valódi kognitív mélységgé alakul.

A piac, mint a valódi versenyhelyzet változásának mutatója

A piaci dinamika figyelemre méltó tisztasággal támasztja alá a technikai narratívát. Az OpenAI piaci részesedése a mesterséges intelligencia felhasználói körében 87 százalékról 68 százalékra esett vissza 2025-re. Ugyanakkor a Google Geminije 5,4 százalékról 18,2 százalékra emelkedett. Ez az eltolódás nem elsősorban az adatdiszkrimináció vagy a médiaforgalom, hanem a mesterséges intelligencia termelékenységi rendszerbe való integrálásának strukturális változása miatt következik be. A Google beágyazta a Geminit a Chrome-ba, az Androidba és a Google Workspace-be – ez már nem egy olyan alkalmazás, amelyet a felhasználók tudatosan nyitnak meg, hanem egy környezeti képesség, amely már jelen van az operációs rendszerben és a mindennapi munkaeszközökben. Az adaptáció így már nem aktív választás, hanem alapértelmezett jelenség.

Ugyanakkor a Google agresszív árképzési stratégiát folytat. Míg a GPT-5.2 millió bemeneti tokenenként 1,75 dollárba kerül, a Gemini Flash ára 0,50 dollár – ami 71 százalékos kedvezményt jelent. Ez nem egy piaci penetrációt célzó promóciós ajánlat, hanem egy strukturális áthelyezés. Saját TPU-ival (Tensor Processing Units) és egyedi chip infrastruktúrájával a Google radikális költségszerkezeti előnnyel rendelkezik az OpenAI-val szemben, amely az Nvidia GPU-ira és a Microsoft Azure infrastruktúrájára támaszkodik. Ez a hardvermélység nem könnyen reprodukálható.

A stratégia zseniális, de egyben aggasztó is az európai, és különösen a német ipari vállalatok számára. A Google megközelítése „vállalati kiindulópont” – nem pedig „fogyasztó-első”, mint az OpenAI esetében. A Google integrálja a mesterséges intelligenciát a vállalatok által már használt eszközökbe. A Geminit a Google Workspace-szel kombinálja, több mint 1500 előre elkészített MI-ügynököt hoz létre, és natívan integrálódik a Salesforce, az SAP és a ServiceNow rendszerekkel. A stratégiai üzenet erős: miért vásárolnánk külön ChatGPT-előfizetéseket, ha a MI már benne van a termelékenységi csomagban?

A Morgan Stanley becslése szerint, ha a Google a meglévő Workspace ügyfélkörének mindössze 30 százalékát Gemini Enterprise-ra váltja, 2027-re évi 8-10 milliárd dolláros ismétlődő bevételt generálhat – a 40 százalékot meghaladó üzemi haszonkulccsal. Ez nem spekuláció, hanem inkább a rendelkezésre álló ügyfélszámokon és a bevált SaaS frissítési mintákon alapuló aritmetikai becslés.

🤖🚀 Felügyelt MI platform: Gyorsabb, biztonságosabb és intelligensebb MI megoldások UNFRAME.AI segítségével

Felügyelt mesterséges intelligencia platform - Kép: Xpert.Digital

Itt megtudhatja, hogyan valósíthat meg vállalata testreszabott mesterséges intelligencia megoldásokat gyorsan, biztonságosan és magas belépési korlátok nélkül.

Egy menedzselt MI platform az Ön átfogó, gondtalan megoldása a mesterséges intelligencia területén. Ahelyett, hogy komplex technológiával, drága infrastruktúrával és hosszadalmas fejlesztési folyamatokkal kellene bajlódnia, egy specializált partnertől kap egy az Ön igényeire szabott, kész megoldást – gyakran mindössze néhány napon belül.

A legfontosabb előnyök egy pillantásra:

⚡ Gyors megvalósítás: Az ötlettől a használatra kész alkalmazásig napok, nem hónapok alatt. Gyakorlati megoldásokat szállítunk, amelyek azonnal hozzáadott értéket teremtenek.

🔒 Maximális adatbiztonság: Érzékeny adatai Önnél maradnak. Garantáljuk a biztonságos és megfelelő feldolgozást anélkül, hogy megosztanánk az adatokat harmadik felekkel.

💸 Nincs pénzügyi kockázat: Csak az eredményekért fizet. A hardverbe, szoftverbe vagy személyzetbe történő magas előzetes beruházások teljesen elmaradnak.

🎯 Koncentrálj a fő üzleti tevékenységedre: Koncentrálj arra, amiben a legjobb vagy. Mi gondoskodunk a mesterséges intelligencia megoldásod teljes technikai megvalósításáról, üzemeltetéséről és karbantartásáról.

📈 Jövőálló és skálázható: A mesterséges intelligencia veled együtt növekszik. Folyamatos optimalizálást és skálázhatóságot biztosítunk, és rugalmasan igazítjuk a modelleket az új követelményekhez.

További információ itt:

Felügyelt AI platform

Több, mint skálázás? Vajon a mesterséges intelligencia következő generációja már tanulja a valódi gondolkodást? Miért lehet az új mesterséges intelligencia több, mint egy termelékenységi eszköz?

A laterális gondolkodás mint gazdasági tényező: Az innováció infrastruktúrája

Miért releváns a laterális gondolkodás gazdaságilag? Mert az igazi innováció – nem pusztán a meglévő minták méretezésének, hanem az új lehetőségek tereinek felismerésének – pontosan ezeket a kognitív képességeket igényli. Egy olyan MI-rendszer, amely csak statisztikai mintafelismeréssel képes problémákat kezelni, szűken meghatározott területeken fog működni, de vakon találkozik az innovatív ugrásokkal. Ha azonban egy MI-rendszer képes párhuzamos hipotéziseket felállítani, azokat egymással szemben tesztelni, és váratlan összefüggéseket keresni, akkor hirtelen valódi általánosíthatósággal rendelkezik. Képes kezelni a kétértelműséget. Képes többértékű opciókat értékelni.

A német ipar, különösen a gépészmérnöki, automatizálási rendszerek és logisztikai szektorokban működő középvállalkozások vezetése számára ez közvetlen innovációs kihívást jelent. Egy laterális gondolkodásra képes MI-partner valódi innovációs eszköz. Egy GPT 5.2 stílusú érvelésre korlátozódó MI-partner hatékony dokumentumíró és kódgenerátor, de nem stratégiai tanácsadó. Ez a különbség a „termelékenységi eszköz” és a „stratégiai képesség” között

Még tovább menve: ha a Google Snow Bunny ellenőrzőpontját valóban beépítik a közelgő Gemini 3.5-be (amit a technikai bennfentesek az elnevezési konvenció és az idővonal logikája alapján gyanítanak), akkor az MI-iparág erőviszonyai alapvetően megváltoznak 2026-ban. Nem csak kicsit. Alapvetően.

Az áttörés architektúrája: Nem csak a skálázás

Kritikus pont: A javulás nem további paraméterek vagy megnövekedett számítási teljesítmény eredménye. Ez volt a kutatási kérdés 2023 és 2025 között: elegendő-e a puszta skálázás. Most kiderült: Nem. Valódi architekturális innovációra volt szükség. Paradigmaváltásra a „következő token statisztikai előrejelzése” helyett a „probléma lebontása, hierarchikus érvelés, ellenőrzés” helyett. A hierarchikus gondolkodási modellekről (HRM) és a neuroszimbolikus mesterséges intelligenciáról szóló szakirodalom már 2024-2025 óta bebizonyította, hogy az ilyen architektúrák lehetségesek, és hogy lényegesen kevesebb paraméterrel jobb gondolkodási teljesítményt érhetnek el, mint a pusztán skálázási megközelítések.

A Google egyértelműen bevezette ennek egy verzióját a termelésben. Az OpenAI és az Anthropic (Claude) még mélyebben beágyazódott a skála-első paradigmába. Ez egy stratégiai különbség, nem marginális. Azt is megmagyarázza, hogy miért nem a paraméterek milliárdjainak puszta száma az egyetlen tényező.

A kockázatok nem marginálisak

Az adatok hitelessége továbbra sem tisztázott. A referenciaértékek szivárgásai könnyen manipulálhatók, és a mesterséges intelligencia iparág 2024-2025-ben többször is tapasztalta a referenciaértékek integritásának erózióját. Az eredmények elmosása, a betanítási adatok szennyeződése, a szelektív jelentéskészítés – ezek a gyakorlatok jól dokumentáltak. Egy óvatos elemző azt tanácsolná: Ne bízzon a képernyőképekben, várja meg az általános elérhetőséget (GA), és végezzen független értékeléseket.

Azonban a „Deep Think” módról, a párhuzamos kódgenerálásról (3000 sor egyetlen promptban), valamint az SVG és zenegenerálási képességekről szóló technikai bennfentes információk – mindezt már dokumentálták a béta tesztelők jelentései, és megerősítették a Vertex AI Cloud integrációjával. Ez csökkenti a manipuláció kockázatát. A Google-nek túl sok vesztenivalója lenne, ha ezek a benchmarkok hamisak lennének. A cég talán kevésbé átlátható versenytárs, de nem ostoba.

Stratégiai következmények az európai iparra nézve

Itt kezdenek komolyra fordulni a dolgok. Európának nincs meghatározó szereplője az alapmodell játékában. Nem igazán. A Franciaországban alapított Mistral a nyílt forráskódú alternatívákkal szemben küzd a túlélésért. Az Aleph Alpha, a német startup, már régen feladta függetlenségét. Európa a tehetségeket az OpenAI-hoz, a Google-höz és az Anthropichoz exportálja, ahelyett, hogy megtartaná őket. A kontinens kutatási cikkeket gyárt, de nem hódítja meg a piacokat.

A kialakulóban lévő dinamika veszélyes. A Google a Snow Bunny/Gemini 3.5-tel fogja élesíteni vállalati mesterséges intelligencia kínálatát. Ha a német gépgyártók, logisztikai vállalatok és kkv-k alapvetően a Google-től, a Microsofttól (az OpenAI integrációjával) vagy az Anthropictól függenek, akkor stratégiai függőségben vannak. Fizetnek azért, hogy a technológiával együtt növekedjenek, de nem irányítják azt. Egy olyan ország számára, mint Németország, amely a technológiai mélységre építette versenyképességét, ez középtávú kockázatot jelent.

Németország globális vezető szerepet tölt be az Ipar 4.0 és az automatizálás terén. De ha a kognitív réteg – a termelési folyamatokról gondolkodó mesterséges intelligencia – az Egyesült Államokból származik, akkor Németország delegálja a stratégiai szintet. Ez egy klasszikus csapda: az alsóbb szinteken technikailag erősek maradnak, de elveszítik az irányítást a felső szintű döntések és az innováció felett.

Van visszaút vagy oldalra vezető út? Nehéz. A nyílt forráskódú modellek (Llama, Qwen, Mistral) olcsóbbak, de az érvelés mélysége tekintetében elmaradnak a határmodellektől. Egy „európai MI” program évekbe és billiókba kerülne. A gyakorlati út valószínűleg a következő: az európai iparnak határmodellekkel kell dolgoznia, de ki kell építenie a saját specializációit és szakterületi szakértelmét, amelyet a generalista modellek nem tudnak egyszerűen lemásolni. Ez lehetséges, de szervezeti mélységet és a tehetségekbe való befektetést igényel, nem csak API-hívásokat.

A nagyobb narratíva: Az elmozdulás a kognitív mélység felé

A skálázás korszakából a kognitív mélység korszakába való átmenet fordulópontjánál tartunk. A 2017-2023 közötti évek a „Nagyobb modellek, jobb eredmények” évek voltak – a GPT-2-ről GPT-3-ra, majd GPT-4-re vonatkozó narratíva tiszta skálázás volt. 2024-2025 volt az az év, amikor a hatékonyságnak ez a korlátja nyilvánvalóvá vált. Nem lehetett tízszer jobb eredményt elérni tízszer több paraméterrel. Gondolkodni kellett (architektúrálisan) és innoválni.

A Google kutatólaboratóriumaival (DeepMind + Google Brain unified), TPU-befektetéseivel és hosszú távú horizontjával felkészült erre az átmenetre. Az OpenAI reaktívabb, jobb a PR-ban, de némileg le van maradva a kutatási ciklusban. Ez a helyzet 2026 januárjában.

A hieroglif benchmark és a Snowbunny szivárgások ennek a mélyebb elmozdulásnak a tünetei. Nem azért, mert egy új modell jól old meg rejtvényeket, hanem azért, mert a valódi 2. rendszerű gondolkodásmódot valósították meg gyártási méretekben.

Ennek nemcsak a mesterséges intelligencia iparágra van következménye, hanem minden olyan iparágra, amely stratégiai inputként értelmezi a mesterséges intelligenciát. És ennek valójában mindenkinek így kellene lennie.

Tanácsadás - Tervezés - Megvalósítás