⭐️ Logisztika/Intralogisztika ⭐️ Mesterséges Intelligencia (MI) - MI Blog, Hotspot és Tartalomközpont ⭐️ Kiterjesztett Valóság - Metaverzum Tervezési Iroda/Ügynökség ⭐️ XPaper

Hangválasztás 📢

ÚJ: Gemini Deep Research 2.0 – Google AI Model Upgrade – Információk a Gemini 2.0 Flash, Flash Thinking és Pro (kísérleti) verziókról

Megjelent: 2025. március 18. / Frissítve: 2025. március 18. – Szerző: Konrad Wolfenstein

Google AI modellfrissítés: Új Gemini 2.0 – Deep Research 2.0, Flash 2.0, Flash Thinking 2.0 és Pro 2.0 (kísérleti) – Kép: Xpert.Digital

Újragondolt érvelés: A Gemini 2.0 a következő szintre emeli a mesterséges intelligenciát

Gemini Mélykutatás 2.0

A Gemini Deep Research 2.0 2025. március 13. óta elérhető világszerte minden felhasználó számára. Ezen a napon a Google bejelentette a Deep Research széles körű elérhetőségét, amely mostantól a továbbfejlesztett Gemini 2.0 Flash Thinking kísérleti modellt használja.

A Gemini Deep Research 2.0 elérhetőségével kapcsolatos főbb pontok:

Most már több mint 45 nyelven ingyenesen elérhető, fizetős előfizetés nélkül.
Minden Gemini felhasználó havonta néhányszor ingyenesen használhatja a Deep Research szolgáltatást.
A Gemini Advanced felhasználók továbbra is korlátlanul hozzáférhetnek a funkcióhoz.
A Deep Research mobil verziója 2025. február 18-án jelent meg Android és iOS eszközökre.

Ezzel a bővítéssel a Google szélesebb felhasználói bázis számára tette elérhetővé a Deep Research-et, ezzel fontos lépést téve a mesterséges intelligencia által támogatott kutatási eszközök demokratizálása felé.

Alkalmas:

Ki mély kutatási eszközök a keményítő tesztben: chatgpt az Openai -tól, a Pulszexitástól vagy a Google Gemini 1.5 Pro -tól?

Gemini 2.0 Flash Thinking: A mesterséges intelligencia kutatásának és személyre szabásának evolúciója

A Google mesterséges intelligencia asszisztensének, a Gemininek a legújabb előrelépése három kulcsfontosságú területen hoz jelentős fejlesztéseket: mélyreható kutatás minden felhasználó számára, továbbfejlesztett személyre szabási funkciók és hatékonyabb érvelés a Flash Thinking 2.0 segítségével. Ezek az újítások megváltoztatják azt, ahogyan a mesterséges intelligencia asszisztensekkel interakcióba lépünk, és ahogyan összetett kutatási feladatokat oldunk meg.

Mélykutatás: Mesterséges intelligencia által vezérelt kutatás mindenkinek

A Deep Research, amely eredetileg kizárólag a Gemini Advanced előfizetői számára volt elérhető, mostantól minden felhasználó számára ingyenesen elérhető több mint 45 nyelven. Ez a hatékony funkció a Geminit személyes kutatási asszisztenssé alakítja, amely önállóan vizsgálja az összetett témákat, és az eredményeket világos, részletes jelentésekben összegzi.

Gemini 1.5 Pro-tól 2.0-ig Flash Thinking

A legfontosabb fejlesztés a Gemini 1.5 Pro-ról az új 2.0 Flash Thinking Experimental modellre való váltás. Ez a rendszer egy kifinomult gondolkodási lépésláncot használ, hogy az összetett problémákat kezelhető köztes lépésekre bontsa, jelentősen javítva a kutatási képességeket minden szakaszban – a tervezéstől és a kereséstől az elemzésig és a jelentéskészítésig.

A kutatási folyamat részletesen

A Deep Research először a keresési lekérdezést egy személyre szabott, többlépcsős kutatási tervvé alakítja. Miután a felhasználó jóváhagyja ezt a tervet, a rendszer automatikusan megkezdi a keresést az interneten, és releváns információkat gyűjt. A folyamat során a Gemini folyamatosan finomítja az elemzését azáltal, hogy az emberhez hasonló módon kutat: érdekes információkat talál, majd ezek alapján új kereséseket indít.

A Deep Research különlegességét a gondolkodási folyamat átláthatósága adja – a felhasználók követhetik a rendszer érvelését, és szükség esetén beavatkozhatnak. A végeredmény egy átfogó jelentés, amely a legfontosabb megállapításokat és az eredeti forrásokra mutató hivatkozásokat tartalmazza, percek alatt elkészítve, és órákig tartó manuális kutatást vált ki.

Továbbfejlesztett személyre szabás: A Gemini megérti az egyéni igényeket

A második jelentős újítás a kísérleti személyre szabási funkció, amely lehetővé teszi a Gemini számára, hogy a Google alkalmazásaiból és szolgáltatásaiból származó személyes adatok alapján testre szabja a válaszokat.

Integráció a Google ökoszisztémával

A felhasználó beleegyezésével a Gemini hozzáférhet a keresési előzményekhez és más Google-szolgáltatásokhoz, hogy személyre szabott válaszokat tudjon nyújtani. A rendszer ezeket az adatokat arra használja, hogy jobban megértse a felhasználói tevékenységeket és preferenciákat, ezáltal relevánsabb tartalmat biztosítson.

A személyre szabás a Google Keresés integrációjával kezdődik – a Gemini a korábbi keresési lekérdezések alapján képes ajánlásokat adni. A közeljövőben a rendszer képes lesz más szolgáltatásokból, például a Google Fotókból és a YouTube-ból származó kontextust is meríteni, lehetővé téve a még átfogóbb személyre szabást.

Adatvédelem és ellenőrzés

A Google hangsúlyozza a felhasználói adatok felelősségteljes kezelését: a Gemini csak akkor fér hozzá a keresési előzményekhez, ha ezt az információt hasznosnak ítéli. A funkció opcionális, és bármikor kikapcsolható egy megfelelő linkkel ellátott banneren keresztül. Ez a személyre szabási funkció kezdetben a Gemini és a Gemini Advanced felhasználók számára érhető el az interneten, majd a jövőben mobileszközökre is kiterjesztik.

2.0 Villámgondolkodás: Az átlátható gondolkodási folyamat

Ezen innovációk középpontjában a 2.0 Flash Thinking kísérleti modell áll, amely fokozott hatékonyságával és sebességével lenyűgöző, és mostantól minden felhasználó számára elérhető.

Átláthatóság látható gondolkodási folyamatokon keresztül

A Flash Thinking 2.0 egyik kiemelkedő tulajdonsága, hogy képes feltárni a gondolkodási folyamatot. A modell a válaszablakban „Gondolatok” formájában jeleníti meg az érvelését, ami lehetővé teszi a mesterséges intelligencia működésének mélyebb megértését. Ez az „érvelési” megközelítés azt jelenti, hogy a válaszokat többször ellenőrzik, mielőtt kimenetre kerülnének, ami pontosabb és megbízhatóbb eredményekhez vezet.

Teljesítmény és alkalmazás

A frissített modell lenyűgöző technikai fejlesztéseket kínál:

Egymillió tokennel rendelkező kontextuális ablak Gemini Advanced felhasználók számára, amely lehetővé teszi terjedelmes szövegek elemzését.
Fájlfeltöltések támogatása
Javuló teljesítmény a matematikai és természettudományi referenciaértékekben
Jobb összhang a gondolatok és a válaszok között

Integráció alkalmazásokkal és szolgáltatásokkal

Egy kulcsfontosságú fejlesztés a Gemini alkalmazásokkal (korábban bővítményeknek nevezték őket) való integráció, amely hozzáférést biztosít olyan szolgáltatásokhoz, mint a Gmail, a Google Naptár, a Drive, az Üzenetek és a YouTube. Ez az integráció összetett, többlépéses lekérdezéseket tesz lehetővé, ahol a modell rögzíti az általános kontextust, lebontja a feladatot egyes lépésekre, és folyamatosan értékeli a haladást.

A következő hetekben elérhető lesz egy Google Fotók alkalmazás is, amely „Kérdezz fotókat” funkciót kínál – a felhasználók például elemezhetik egy utazásról készült fotókat utazási terv készítéséhez, vagy konkrét információkat kérhetnek a képeken.

Új fejezet a mesterséges intelligencia asszisztensek számára

A Deep Research bevezetése minden felhasználó számára, a továbbfejlesztett személyre szabási funkciókkal és a hatékony 2.0 Flash Thinking modellel kombinálva jelentős előrelépést jelent a mesterséges intelligencia asszisztensek fejlesztésében. Ez a Google-t a verseny élvonalába helyezi, és a fejlett mesterséges intelligencia képességeit szélesebb közönség számára teszi elérhetővé.

Ezek az innovációk a Geminit egy egyszerű chatbotból egy hatékony személyi asszisztenssé alakítják, amely képes komplex kutatási feladatok kezelésére, megérti az egyéni igényeket, és átláthatóvá teszi gondolkodási folyamatait. A Google ökoszisztémával való integrációnak és a fokozott személyre szabásnak köszönhetően a Gemini egyre inkább a felhasználó természetes kiterjesztése, előre látja igényeiket, és valóban személyre szabott támogatást nyújt.

Alkalmas:

Ki-Power a Google-tól: AI Studio és Gemini-this Az, ahogyan az optimálisan google AI RIDDLES-t használja.

Gemini 2.0: A Google mesterséges intelligenciájának továbbfejlesztése a korábbi verziókhoz képest

A Gemini 2.0 bevezetésével a Google jelentősen továbbfejlesztette mesterséges intelligencia modellcsaládját. Az új generáció jelentős javulást hoz a sebesség, a pontosság és a funkcionalitás terén az elődökhöz képest. Az alábbiakban részletesen elemezzük a Gemini 2.0 főbb különbségeit és új funkcióit a korábbi verziókhoz képest.

Teljesítményjavítások és főbb különbségek

A Gemini 2.0 számos alapvető fejlesztésben különbözik elődeitől. Talán a legfigyelemreméltóbb változás a megnövekedett sebesség: a Gemini 2.0 Flash nagyjából kétszer olyan gyors, mint a Gemini 1.5 Pro, és számos benchmarkban felülmúlja azt. Ezt a sebességnövekedést a különböző feladatokban mutatott jelentősen megnövekedett pontosság is kíséri.

A komplex feladatok pontossága is jelentősen javult. Például a Gemini 2.0 fokozott pontosságot mutat a podcastok időbélyegzésében és a részletes átiratokban. Továbbá a modell árnyaltabb és kontextusnak megfelelőbb kimenetet generál, így értékesebb eszközzé válik a kreatív tartalomkészítéshez és az összetett problémamegoldáshoz.

Egy másik fontos újítás a továbbfejlesztett multimodális képességek bevezetése. Míg a Gemini 1.5 már korábban is kínált multimodális funkciókat, a Gemini 2.0 nemcsak szöveges, képi, hang- és videóadatok feldolgozására képes, hanem sokkal mélyebben elemzi és megérti azokat.

A Gemini 2.0 modellváltozatai

A Google a Gemini 2.0-t különböző verziókban mutatta be, mindegyiket meghatározott felhasználási esetekre optimalizálva:

Gemini 2.0 vaku

Az alapmodell már általánosan elérhető, magasabb sebességkorlátokat és jobb teljesítményt kínál. Ideális fejlesztők számára, és hatékonyan képes kezelni a hang-, kép-, videó- és szöveges adatokat. A modell 1 millió token kontextuális ablakát támogatja.

Gemini 2.0 Pro Kísérleti

Ez a legerősebb modell összetett feladatokhoz és kódoláshoz. Kibővített kontextusablakkal rendelkezik, amely 2 millió tokent tartalmaz – kétszer annyit, mint a Flash változatok. A belső benchmarkokban a Gemini 2.0 Pro szinte minden területen a legjobb eredményeket éri el.

Gemini 2.0 Flash-Lite

Egy új, költséghatékony opció, amely továbbra is jobb teljesítményt kínál a Gemini 1.5 Flash-hez képest. Különösen érdekes azoknak a fejlesztőknek, akik költséghatékony megoldást keresnek anélkül, hogy jelentős teljesítményveszteséget kellene elfogadniuk.

Gemini 2.0 Flash Thinking Experimental

Ez a kísérleti modell egy további érvelési folyamatot használ a válaszok generálása előtt, hasonlóan az OpenAI o3-hoz és a Deepseek-R1-hez. Külső eszközökhöz is hozzáférhet, mint például a YouTube, a Térkép és a Google Keresés.

Haladó műszaki ismeretek

Multimodális feldolgozás

A Gemini 2.0 multimodális képességei jelentősen kifinomultabbak a korábbi verziókhoz képest. A modell képes egyszerre szöveges, képi és hangadatok feldolgozására és generálására. Ez a képesség összetettebb alkalmazásokat tesz lehetővé, például az orvosi diagnosztikában, ahol mind az írásos betegjelentéseket, mind a képalkotó adatokat elemezni és integrálni tudja.

Autonóm ügynökök és eszközhasználat

A Gemini 2.0 bevezeti az autonóm ágensek koncepcióját, amelyek döntések meghozatalával és cselekvések tervezésével önállóan képesek feladatokat végrehajtani. A Gemini 2.0 Flash verziójában különösen figyelemre méltó a Multimodal Live API és a Native Tool Use, amelyek lehetővé teszik a modell számára a külső eszközök elérését és használatát.

Kontextuális ablak és tokenfeldolgozás

Egy fontos technikai különbség a kontextuális ablak méretében rejlik:

Gemini 2.0 Flash és Flash-Lite: 1 millió token bevitelhez
Gemini 2.0 Pro: 2 millió token bevitelre
Minden modell: 8192 token a kimenethez

Összehasonlításképpen, a Gemini 1.5 Pro már képes volt nagy mennyiségű adat feldolgozására, beleértve 2 óra videót, 19 óra hanganyagot, 60 000 sornyi kódot tartalmazó kódbázisokat vagy 2000 oldalnyi szöveget.

Összehasonlított benchmark eredmények

A benchmarkok jelentős javulást mutatnak a Gemini 2.0 esetében a korábbi verziókhoz képest:

Matematikai feladatokban a Gemini 2.0 Pro 91,8%-ot ér el a MATH benchmarkban és 65,2%-ot a HiddenMathban, ami jelentősen magasabb, mint a Flash változatoké. Az OpenAI SimpleQA tesztjében a Pro modell 44,3%-ot, míg a Gemini 2.0 Flash 29,9%-ot ér el.

A fejlődés az összetett tartalmak elemzésében is szembetűnő. Például képek elemzésekor a Gemini 2.0 mélyebb elemzést és gyakorlati megoldásokat kínál a régebbi verziókhoz képest.

Integráció és elérhetőség

Minden Gemini 2.0 modell elérhető asztali és mobileszközökön a Google AI Studio és a Vertex AI, valamint a Google prémium chatbotján, a Gemini Advanced-en keresztül. A Google szolgáltatásaival, például a Google Kereséssel, a Térképpel és a Workspace-szel való továbbfejlesztett integráció egységes felhasználói élményt biztosít.

Az új funkciók a fejlesztők számára is elérhetők, és a Google rugalmasabbá vált az API-árazás terén. Például megszűnt a rövid és hosszú kontextusú lekérdezések közötti korábbi megkülönböztetés, ami lehetővé teszi, hogy a vegyes munkaterhelések (szöveg és kép) költségei a teljesítményjavulás ellenére is a Gemini 1.5 Flash költségei alatt maradjanak.

Jövőbeli fejlesztések

Bár a Gemini 2.0 már jelentős előrelépést jelent, meg kell jegyezni, hogy néhány bejelentett funkció még nem érhető el. A kép- és hangkimenet, valamint az élő videó várhatóan a Flash és a Pro verziókhoz is hozzáadódik az elkövetkező hónapokban. Továbbá a zászlóshajó modellt, a "Gemini 2.0 Ultra"-t még nem jelentették be.

Multimodális, gyors, intelligens: Mi teszi egyedivé a Gemini 2.0-t?

A Gemini 2.0 jelentős evolúciós ugrást jelent elődeihez képest. A megnövelt sebességnek, a továbbfejlesztett multimodális feldolgozásnak, a nagyobb kontextuális ablakoknak és a specializált modellváltozatoknak köszönhetően a Google egy olyan MI-megoldást kínál, amely a felhasználási esetek széles skálájára van optimalizálva. Az autonóm ágensek és a natív eszközhasználat integrációja egy olyan paradigmaváltásra utal, amelyben a MI-rendszerek egyre inkább képesek önállóan és intelligensen működni.

Alkalmas: