Google Gemini Ki z analizą wideo na żywo i udostępnianie ekranu Funkcjonalność Mobilna Światowa Kongres (MWC) 2025

Opublikowano: 4 marca 2025 r. / Zaktualizowano: 4 marca 2025 r. – Autor: Konrad Wolfenstein

Google Gemini AI z analizą wideo na żywo i funkcją udostępniania ekranu – Mobile World Congress (MWC) 2025 – Zdjęcie: Xpert.Digital

Interakcja multimodalna: przyszłość asystenta Google AI

Nowe funkcje AI: co Gemini Boost oznacza dla użytkowników

Podczas targów Mobile World Congress (MWC) 2025 w Barcelonie, Google zaprezentowało znaczące udoskonalenia swojego asystenta AI Gemini, mające na celu poprawę wrażeń użytkownika dzięki nowym funkcjom wizualnym. Do najważniejszych nowości należą analiza wideo na żywo i funkcje udostępniania ekranu, które będą dostępne dla abonentów planu Google One AI premium pod koniec marca. Te zmiany stanowią kamień milowy w strategii Google, której celem jest głębsza integracja sztucznej inteligencji z codziennym życiem i usprawnienie multimodalnej interakcji

Nadaje się do:

Sztuczna inteligencja i smartfony z obsługą AI: Galaxy AI firmy Samsung na targach Mobile World Congress w Barcelonie

Nowe funkcje wizualne dla Gemini

Analiza wideo na żywo

Jedną z wyróżniających się innowacji, które Google zaprezentował na targach MWC 2025, jest funkcja wideo na żywo dla Gemini. Technologia ta pozwala użytkownikom pokazać sztucznej inteligencji w czasie rzeczywistym, co rejestruje kamera ich smartfona, i nawiązać naturalny dialog. Funkcja, zaprezentowana po raz pierwszy na konferencji Google I/O w maju 2024 roku, jest już gotowa do wdrożenia. W filmie demonstracyjnym zaprezentowanym przez Google, garncarz kieruje kamerę na kolekcję ceramicznych elementów i prosi Gemini o poradę w wyborze kolorów do kolejnego wazonu. Asystent sztucznej inteligencji analizuje dostępne kolory i udziela trafnych rekomendacji dotyczących odpowiedniego szkliwa.

Ta funkcja wykorzystuje multimodalne możliwości Gemini do przetwarzania informacji wizualnych w czasie rzeczywistym i interpretowania ich w kontekście naturalnej rozmowy. Jest ona częścią większego projektu Google, znanego jako „Projekt Astra”, i stanowi znaczący postęp w rozwoju asystentów AI zdolnych do interakcji ze światem rzeczywistym.

Funkcjonalność udostępniania ekranu

Drugim ważnym ulepszeniem wizualnym jest funkcja udostępniania ekranu, która pozwala użytkownikom udostępniać ekran smartfona w Gemini. Po uruchomieniu interfejsu Gemini na Androidzie pojawia się nowy przycisk „Udostępnij ekran na żywo”, który umożliwia użytkownikom udostępnianie ekranu asystentowi AI w czasie rzeczywistym. Funkcję tę uzupełnia nowe powiadomienie w stylu połączenia telefonicznego, co pozwala na płynną integrację z interfejsem użytkownika.

W praktycznych zastosowaniach Gemini może wykorzystać tę funkcję na przykład do wspomagania zakupów online. W demonstracji Google pokazuje, jak użytkownik może zapytać Gemini, co będzie pasować do pary dżinsów wyświetlanych na ekranie. Na podstawie tego, co widzi, Gemini może następnie przedstawić rekomendacje i poprowadzić użytkownika przez proces zakupów.

Szczegóły techniczne i dostępność

Harmonogram wprowadzenia

Google planuje udostępnić nowe funkcje wideo na żywo i udostępniania ekranu subskrybentom Gemini Advanced już w marcu 2025 roku. Funkcje te będą dostępne w ramach planu Google One AI Premium, który kosztuje 21,99 euro miesięcznie. Początkowo ulepszenia będą dostępne tylko na urządzeniach z systemem Android, a w pierwszej kolejności będą obsługiwane urządzenia Pixel i Samsung.

Integracja w Gemini Live

Nowe funkcje wizualne są zintegrowane z Gemini Live, asystentem Google opartym na sztucznej inteligencji, który umożliwia prowadzenie rozmów w czasie rzeczywistym. Gemini Live został zaktualizowany o Gemini 2.0 Flash, wersję multimodalnego modelu zoptymalizowaną specjalnie pod kątem szybkiego, mobilnego użytkowania. Co ciekawe, udostępnianie ekranu jest obsługiwane przez nowe powiadomienie w stylu połączenia telefonicznego, co pozwala na płynną integrację z interfejsem użytkownika.

Podstawa technologiczna

Nowe funkcje oparte są na Projekcie Astra, inicjatywie Google dotyczącej uniwersalnego, multimodalnego asystenta AI. Celem tego projektu jest opracowanie asystenta, który będzie w stanie przetwarzać dane tekstowe, wideo i audio w czasie rzeczywistym oraz przechowywać je w kontekście konwersacji trwającej do dziesięciu minut. Technologia ta ma również wykorzystywać wyszukiwarkę Google, Lens i Mapy Google, aby zapewnić kompleksowe doświadczenie asystenta.

Nadaje się do:

Osobisty asystent Google AI: Istnieją dwie wersje – Gemini (wersja standardowa) i Gemini Advanced (płatna wersja premium)

Gemini w kontekście rynku asystentów AI

Pozycjonowanie konkurencyjne

Dzięki tym nowym funkcjom wizualnym Google strategicznie pozycjonuje się na tle swojego głównego konkurenta, OpenAI, i ChatGPT. Zaawansowany tryb głosowy ChatGPT obsługuje transmisje na żywo i udostępnianie ekranu od grudnia 2024 roku. Integrując te funkcje z Gemini Live, Google zapewnia, że jego asystent AI pozostaje konkurencyjny i oferuje porównywalne możliwości.

Znaczenie dla branży smartfonów

Wprowadzenie zaawansowanych funkcji AI, takich jak te oferowane przez Gemini, może mieć znaczący wpływ na branżę smartfonów. Po dwóch latach spadku sprzedaży, podczas których wielu konsumentów dłużej trzymało się swoich urządzeń, integracja asystentów AI z ulepszonymi funkcjami może stworzyć nowe zachęty zakupowe. W Niemczech, według badania przeprowadzonego przez Bitkom, tylko co trzecia osoba posiada obecnie urządzenie krótsze niż rok – w porównaniu z 55% w 2023 roku.

Producenci smartfonów wykorzystują nowe funkcje sztucznej inteligencji jako czynnik różnicujący, ponieważ urządzenia są bardzo podobne pod względem wyglądu i technologii. Na przykład Samsung demonstruje, jak agent w swoim nowym smartfonie S25 może wykonywać zadania w wielu aplikacjach, a Oppo prezentuje wizualne możliwości sztucznej inteligencji w zakresie przetwarzania obrazu.

Więcej aktualizacji dla Gemini

Ulepszona obsługa języków

Oprócz funkcji wizualnych, Google rozszerzył również możliwości językowe Gemini. Asystent AI potrafi teraz rozumieć i mówić w 45 językach. Jedną z szczególnie innowacyjnych funkcji jest możliwość przełączania języków w trakcie zdania, bez konieczności zmiany ustawień językowych telefonu – „Gemini Live zrozumie i odpowie”.

Nowe widżety dla użytkowników iPhone’a

Chociaż funkcje wizualne będą początkowo dostępne tylko na urządzeniach z Androidem, Google ogłosiło również aktualizacje dla użytkowników iPhone'a. Wersja 1.2025.0762303 aplikacji Gemini wprowadza sześć różnych widżetów ekranu blokady, które zapewniają szybszy dostęp do asystenta AI. Widżety te obejmują opcje takie jak „Wpisz monit”, „Rozmowa z Gemini Live”, „Otwórz mikrofon”, „Użyj aparatu”, „Udostępnij obraz” i „Udostępnij plik”. Można je umieścić zarówno na ekranie blokady, jak i w Centrum sterowania iPhone'a, co ułatwia dostęp do Gemini.

Niektórzy obserwatorzy interpretują ten rozwój sytuacji jako próbę odciągnięcia użytkowników iPhone'ów i iPadów od asystenta głosowego Apple, Siri. Doniesienia wskazują, że Apple czyni powolne postępy w opracowywaniu bardziej zaawansowanej wersji Siri, która mogłaby konkurować z wiodącymi platformami AI.

Wnioski: Znaczenie i perspektywy

Udoskonalenia Gemini, zaprezentowane przez Google na targach MWC 2025, stanowią znaczący krok w ewolucji asystentów AI. Nowe funkcje wizualne – analiza wideo na żywo i udostępnianie ekranu – umożliwiają bardziej intuicyjną i kontekstową interakcję między użytkownikami a sztuczną inteligencją. Są one częścią szerszego rozwoju w kierunku asystentów multimodalnych, które mogą coraz lepiej współdziałać ze światem rzeczywistym.

Integracja tych funkcji może mieć dalekosiężne skutki w różnych sektorach. Dla branży smartfonów może stworzyć nowe zachęty zakupowe i pomóc ożywić stagnujący rynek. Dla użytkowników otwierają nowe możliwości wykorzystania sztucznej inteligencji w życiu codziennym, czy to podczas zakupów, projektów kreatywnych, czy wyszukiwania informacji.

Jednocześnie te zmiany podkreślają ciągłą konkurencję między czołowymi firmami technologicznymi w dziedzinie asystentów AI. Google, OpenAI, Apple i inne firmy nieustannie pracują nad udoskonalaniem swoich asystentów i wyposażaniem ich w nowe funkcje. To napędza innowacje i może doprowadzić do powstania jeszcze potężniejszych i bardziej intuicyjnych asystentów AI w nadchodzących latach.

Dzięki Projektowi Astra i nowym funkcjom dla Gemini, Google prezentuje swoją długoterminową wizję dla asystentów AI: powinni być uniwersalni, multimodalni i głęboko zintegrowani z codziennym życiem. Nowości zaprezentowane na targach MWC 2025 stanowią ważny krok w tym kierunku i dają wgląd w przyszłość interakcji człowiek-maszyna.

Nadaje się do: