A Google Gemini Ki élő video elemzéssel és a képernyőmegosztással a Mobile-Mobile World Congress (MWC) 2025

Megjelent: 2025. március 4. / Frissítve: 2025. március 4. – Szerző: Konrad Wolfenstein

Google Gemini mesterséges intelligencia élő videóelemzéssel és képernyőmegosztási funkcióval – Mobile World Congress (MWC) 2025 – Kép: Xpert.Digital

Multimodális interakció: A Google AI asszisztens jövője

Új mesterséges intelligencia funkciók: Mit jelent a Gemini Boost a felhasználók számára?

A 2025-ös barcelonai Mobile World Congress (MWC) kiállításon a Google jelentős fejlesztéseket mutatott be Gemini mesterséges intelligencia asszisztenséhez, amelyek célja a felhasználói élmény javítása új vizuális funkciók révén. A főbb újítások közé tartozik az élő videóelemzés és a képernyőmegosztási képesség, amelyek március végétől elérhetők lesznek a Google One mesterséges intelligencia prémium csomag előfizetői számára. Ezek a fejlesztések fontos mérföldkövet jelentenek a Google stratégiájában, amelynek célja a mesterséges intelligencia mélyebb integrálása a mindennapi életbe, valamint multimodális interakció javítása

Alkalmas:

Mesterséges intelligencia és mesterséges intelligenciával működő okostelefonok: a Samsung Galaxy AI-ja a barcelonai Mobile World Congressen

A Gemini új vizuális funkciói

Élő videó elemzés

A Google által az MWC 2025-ön bemutatott egyik kiemelkedő újítás a Gemini élő videó funkciója. Ez a technológia lehetővé teszi a felhasználók számára, hogy valós időben mutassák meg a mesterséges intelligenciának, mit rögzít okostelefonjuk kamerája, és természetes párbeszédet folytassanak vele. A funkciót először a Google 2024 májusi I/O konferenciáján mutatták be, és most készen áll a bevezetésre. A Google által bemutatott bemutató videóban egy fazekas a kameráját egy kerámiadarab-gyűjteményre irányítja, és tanácsot kér a Geminitől a következő váza színeinek kiválasztásához. A mesterséges intelligencia asszisztens elemzi az elérhető színeket, és megalapozott ajánlást ad a megfelelő mázra.

Ez a funkció a Gemini multimodális képességeit kihasználva valós időben dolgozza fel a vizuális információkat, és értelmezze azokat egy természetes beszélgetés kontextusában. A Google nagyobb projektjének, az „Astra Projektnek” a része, és jelentős előrelépést jelent a való világgal interakcióba lépni képes mesterséges intelligencia asszisztensek fejlesztésében.

Képernyőmegosztási funkció

A második fontos vizuális fejlesztés a képernyőmegosztási funkció, amely lehetővé teszi a felhasználók számára, hogy megosszák okostelefonjuk képernyőjét a Geminivel. Amikor a Gemini felülete elindul Androidon, megjelenik egy új, „Képernyőmegosztás élőben” feliratú gomb, amely lehetővé teszi a felhasználók számára, hogy valós időben osszák meg képernyőjüket a mesterséges intelligencia asszisztensével. Ezt a funkciót egy új, telefonhívás stílusú értesítés egészíti ki, amely zökkenőmentes integrációt tesz lehetővé a felhasználói felületbe.

Gyakorlati alkalmazási esetekben a Gemini ezt a funkciót például az online vásárlás segítésére használhatja. Egy bemutatón a Google bemutatja, hogyan kérdezheti meg a felhasználó a Geminitől, hogy mi illene jól egy képernyőn megjelenített farmerhez. A látottak alapján a Gemini ajánlásokat tehet, és végigvezeti a felhasználót a vásárlási folyamaton.

Műszaki adatok és elérhetőség

A bevezetés idővonala

A Google tervei szerint az új élő videó és képernyőmegosztási funkciókat már 2025 márciusában elérhetővé teszi a Gemini Advanced előfizetői számára. Ezek a funkciók a Google One AI Premium csomag részeként lesznek elérhetők, amely havi 21,99 euróba kerül. A fejlesztések kezdetben csak Android-eszközökön lesznek elérhetők, a Pixel és a Samsung eszközök az elsők között lesznek támogatottak.

Integráció a Gemini Live-ban

Az új vizuális funkciók integrálva vannak a Gemini Live-ba, a Google folyamatos mesterséges intelligencia asszisztensébe, amely valós idejű beszélgetéseket tesz lehetővé. A Gemini Live frissült a Gemini 2.0 Flash-sel, a multimodális modell egy olyan verziójával, amelyet kifejezetten a gyors, mobil használatra optimalizáltak. Érdekes módon a képernyőmegosztást egy új, telefonhívás stílusú értesítés támogatja, amely zökkenőmentesen integrálható a felhasználói élménybe.

Technológiai alap

Az új funkciók a Project Astra-n alapulnak, a Google univerzális, multimodális mesterséges intelligencia asszisztensre irányuló kezdeményezésén. A projekt célja egy olyan asszisztens kifejlesztése, amely valós időben képes szöveges, videó- és hangadatokat feldolgozni, és azokat akár tíz perces beszélgetési kontextusban tárolni. A technológia célja, hogy a Google Keresés, a Lens és a Térképek szolgáltatásait is kihasználva átfogó asszisztensi élményt nyújtson.

Alkalmas:

Google AI személyi asszisztens: Két változat létezik – a Gemini (normál verzió) és a Gemini Advanced (fizetős prémium verzió)

Gemini az AI asszisztens piac kontextusában

Versenyképes pozicionálás

Ezekkel az új vizuális funkciókkal a Google stratégiailag pozicionálja magát fő versenytársával, az OpenAI-val és annak ChatGPT-jével szemben. A ChatGPT fejlett hang módja 2024 decembere óta támogatja az élő közvetítéseket és a képernyőmegosztást. Azzal, hogy ezeket a funkciókat integrálja a Gemini Live-ba, a Google biztosítja, hogy AI-asszisztense versenyképes maradjon, és összehasonlítható képességeket kínáljon.

Jelentőség az okostelefon-ipar számára

A Gemini által kínált fejlett mesterséges intelligencia funkciók bevezetése jelentős hatással lehet az okostelefon-iparra. Két évnyi csökkenő eladás után, amely alatt sok fogyasztó tovább tartotta meg eszközét, a továbbfejlesztett képességekkel rendelkező mesterséges intelligencia asszisztensek integrációja új vásárlási ösztönzőket teremthet. Németországban a Bitkom felmérése szerint ma már csak minden harmadik embernek van egy évnél fiatalabb készüléke – ez az arány 2023-ban 55 százalékhoz képest csökkenést jelent.

Az okostelefon-gyártók az új mesterséges intelligencia funkciókat megkülönböztető tényezőként használják, mivel az eszközök megjelenésükben és technológiájukban is nagyon hasonlóak. A Samsung például bemutatja, hogyan képes egy ügynök az új S25 okostelefonján több alkalmazásban is feladatokat végrehajtani, míg az Oppo a mesterséges intelligencia vizuális képességeit mutatja be a képfeldolgozásban.

További frissítések a Geminihez

Bővített nyelvi támogatás

A vizuális funkciók mellett a Google kibővítette a Gemini nyelvi képességeit is. A mesterséges intelligencia által vezérelt asszisztens mostantól 45 nyelven ért és beszél. Az egyik különösen innovatív funkció, hogy mondat közben is képes nyelvet váltani anélkül, hogy a felhasználóknak módosítaniuk kellene a telefonjuk nyelvi beállításait – „A Gemini Live megérti és válaszol.”

Új widgetek iPhone-felhasználóknak

Bár a vizuális funkciók kezdetben csak Android-eszközökön lesznek elérhetők, a Google frissítéseket jelentett be az iPhone-felhasználók számára is. A Gemini alkalmazás 1.2025.0762303-as verziója hat különböző zárolási képernyő widgetet vezet be, amelyek gyorsabb hozzáférést biztosítanak a mesterséges intelligencia asszisztenshez. Ezek a widgetek olyan opciókat tartalmaznak, mint a „Gépelési parancs”, „Beszélgetés a Geminivel élőben”, „Mikrofon megnyitása”, „Kamera használata”, „Kép megosztása” és „Fájl megosztása”. Elhelyezhetők mind a zárolási képernyőn, mind az iPhone Vezérlőközpontjában, így könnyebben elérhető a Gemini.

Egyes megfigyelők úgy értelmezik ezt a fejleményt, mint kísérletet arra, hogy az iPhone és iPad felhasználókat elcsábítsák az Apple hangasszisztensétől, a Siritől. A jelentések szerint az Apple lassan halad a Siri egy erősebb verziójának fejlesztésében, amely versenyképes lehet a vezető mesterséges intelligencia platformokkal.

Következtetés: Jelentőség és kilátások

A Google által az MWC 2025-ön bemutatott Gemini frissítések jelentős lépést jelentenek a mesterséges intelligencia asszisztensek fejlődésében. Az új vizuális funkciók – az élő videóelemzés és a képernyőmegosztás – intuitívabb és kontextus-tudatosabb interakciót tesznek lehetővé a felhasználók és a mesterséges intelligencia között. Ezek a multimodális asszisztensek felé vezető szélesebb körű fejlesztés részét képezik, amelyek egyre inkább képesek interakcióba lépni a való világgal.

Ezen funkciók integrációja messzemenő hatásokkal járhat számos ágazatban. Az okostelefon-ipar számára új vásárlási ösztönzőket teremthetnek, és segíthetnek a stagnáló piac újjáélesztésében. A felhasználók számára új lehetőségeket nyitnak meg a mesterséges intelligencia mindennapi életben való felhasználására, legyen szó vásárlásról, kreatív projektekről vagy információkeresésről.

Ugyanakkor ezek a fejlemények rávilágítanak a nagy technológiai vállalatok közötti folyamatos versenyre az AI-asszisztensek területén. A Google, az OpenAI, az Apple és mások folyamatosan dolgoznak asszisztenseik fejlesztésén és új funkciókkal való felvértezésén. Ez ösztönzi az innovációt, és az elkövetkező években még hatékonyabb és intuitívabb AI-asszisztensekhez vezethet.

A Project Astra és a Gemini új funkcióival a Google bemutatja a mesterséges intelligencia asszisztensekkel kapcsolatos hosszú távú jövőképét: ezeknek univerzálisnak, multimodálisnak és a mindennapi életbe mélyen integráltnak kell lenniük. Az MWC 2025-ön bemutatott frissítések fontos lépést jelentenek ebbe az irányba, és betekintést nyújtanak az ember-gép interakció jövőjébe.

Alkalmas: