Sztuczna inteligencja Rynek Polecane tematy

Google I/O 2025: Gemini, Veo, Flow i spółka – sztuczna inteligencja wkracza w nową erę

Mikołaj Marszycki 21 maja 2025

2 6 631 4 minut(y) czytania

Podczas corocznej konferencji Google I/O koncern zaprezentował szereg innowacji AI, które mają sprawić, że sztuczna inteligencja będzie: jeszcze bardziej inteligentna, agentowa i spersonalizowana, bardziej pomocna oraz dostępna dla każdego. Poniżej prezentujemy przegląd najważniejszych z zaprezentowanych nowości.

Gemini 2.5 Flash

2.5 Flash to zaawansowany i najwydajniejszy model zaprojektowany z myślą o szybkości i niskich kosztach. Został on m.in. udoskonalony w kluczowych wskaźnikach porównawczych dotyczących rozumowania, multimodalności, kodu i długiego kontekstu, dzięki czemu jest jeszcze bardziej wydajny. I jest teraz domyślnym modelem.

Deep Think w Gemini 2.5 Pro

Deep Think to „ulepszony” tryb rozumowania dla flagowego modelu Google Gemini 2.5 Pro. Pozwala on modelowi rozważyć wiele odpowiedzi na pytania przed udzieleniem odpowiedzi, zwiększając jego wydajność w niektórych testach porównawczych. Deep Think jest obecnie dostępny dla „zaufanych testerów” za pośrednictwem interfejsu API Gemini. Przedstawiciele koncernu poinformowali, że przeprowadzenie ocen bezpieczeństwa przed szerokim wdrożeniem Deep Think zajmie trochę czasu.

Veo 3 – model sztucznej inteligencji generujący wideo

Model Veo 3 może generować efekty dźwiękowe, odgłosy w tle, a nawet dialogi towarzyszące tworzonym filmom. Veo 3 ulepsza również swojego poprzednika, Veo 2, pod względem jakości materiałów, które może generować, twierdzi Google. Veo 3 jest dostępny w aplikacji Google Gemini dla subskrybentów planu Google AI Ultra, gdzie można go monitować za pomocą tekstu lub obrazu.

Generator obrazów AI Imagen 4

Według Google, Imagen 4 jest szybszy niż Imagen 3, a wkrótce będzie jeszcze szybszy. W niedalekiej przyszłości firma planuje wypuścić wariant, który będzie do 10 razy szybszy niż Imagen 3. Imagen 4 jest w stanie renderować „drobne szczegóły”, takie jak np. tkaniny, krople wody i futro zwierząt. Może obsługiwać zarówno fotorealistyczne, jak i abstrakcyjne style, tworząc obrazy w różnych proporcjach i rozdzielczości do 2K. Zarówno Veo 3, jak i Imagen 4 będą używane do zasilania Flow, narzędzia wideo firmy opartego na sztucznej inteligencji, ukierunkowanego na tworzenie filmów.

Flow

To narzędzie AI do tworzenia filmów, które pozwala płynnie kreować klipy filmowe, sceny i historie. Do zasilania nowego narzędzia Google wykorzystuje trzy modele sztucznej inteligencji – Veo do generowania wideo, Imagen do generowania obrazów oraz Gemini do generowania tekstu i podpowiedzi. Nowe narzędzie oferuje takie funkcje, jak: sterowanie kamerą, aby zmienić kąt kamery lub widok w scenie; kreatora scen do edycji lub rozszerzania ujęć i kierowania przepływem sceny; a także narzędzia do zarządzania zasobami.

Ponadto firma uruchamia „Flow TV”, wyselekcjonowany strumień klipów i treści, w którym inni mogą zobaczyć dokładne wskazówki dotyczące tych filmów, aby zrozumieć kreatywne przepływy innych użytkowników.

Początkowo usługa Flow będzie dostępna tylko dla użytkowników w Stanach Zjednoczonych, w ramach planu Google AI Pro i nowego planu Google AI Ultra.

Tłumaczenie mowy w czasie rzeczywistym w Google Meet

Funkcja ta wykorzystuje duży model audio języka od Google DeepMind, aby umożliwić naturalną, swobodną rozmowę z kimś w innym języku. Tłumaczy wypowiadane słowa na preferowany język słuchacza w czasie rzeczywistym. Przy czym głos, ton i ekspresja są zachowywane w tłumaczeniu.

Gigant technologiczny twierdzi, że funkcja ta ma wiele zastosowań. Przykładowo może być używana przez osoby mówiące po angielsku, które rozmawiają z innymi osobami mówiącymi po hiszpańsku. Może być też używana przez firmy działające w różnych regionach, aby umożliwić globalnym współpracownikom łączenie się i czatowanie w czasie rzeczywistym. Według Google, opóźnienie w tłumaczeniu mowy jest bardzo niskie, co pozwala na czatowanie wielu osób razem.

Funkcja ta będzie najpierw dostępna w języku angielskim i hiszpańskim, a w ciągu najbliższych kilku tygodni pojawi się więcej języków, w tym polski, włoski, niemiecki, portugalski.

Aktualizacje aplikacji Gemini

Funkcje udostępniania kamery i ekranu Gemini Live zostaną udostępnione w tym tygodniu wszystkim użytkownikom iOS i Android. Funkcja ta, obsługiwana przez Project Astra, umożliwia użytkownikom prowadzenie rozmów werbalnych w czasie niemal rzeczywistym z Gemini, a także przesyłanie strumieniowe wideo z kamery lub ekranu smartfona do modelu AI.

Według zapowiedzi, w nadchodzących tygodniach Gemini Live zacznie również głębiej integrować się z innymi aplikacjami: wkrótce będzie w stanie oferować wskazówki z Map Google, tworzyć wydarzenia w Kalendarzu Google i tworzyć listy rzeczy do zrobienia za pomocą Zadań Google. Koncern aktualizuje też Deep Research, agenta AI Gemini, który generuje szczegółowe raporty badawcze, umożliwiając użytkownikom przesyłanie własnych prywatnych plików PDF i obrazów.

Stitch

To narzędzie oparte na AI, które pomaga projektować interfejsy aplikacji internetowych i mobilnych, generując niezbędne elementy interfejsu użytkownika i kod. Stitch-a można poprosić o utworzenie interfejsu użytkownika aplikacji za pomocą kilku słów lub nawet obrazu, dostarczając znaczniki HTML i CSS dla generowanych projektów.

Google rozszerzyło również dostęp do Jules, swojego agenta AI, którego celem jest pomoc programistom w naprawianiu błędów w kodzie. Narzędzie pomaga programistom zrozumieć złożony kod, tworzyć pull requesty na GitHubie oraz obsługiwać niektóre zaległe pozycje i zadania programistyczne.

Projekt Mariner

To eksperymentalny agent AI Google, który przegląda i korzysta ze stron internetowych. Google twierdzi, że znacznie zaktualizował sposób działania Project Mariner, umożliwiając agentowi wykonywanie prawie tuzina zadań jednocześnie. Przykładowo, użytkownicy Project Mariner mogą kupować artykuły spożywcze online bez konieczności odwiedzania stron internetowych innych firm. Można po prostu rozmawiać z agentem, a on odwiedza strony internetowe i samodzielnie podejmuje działania.

Projekt Astra

To wielomodalna sztuczna inteligencja o niskim opóźnieniu, która będzie zasilać szereg nowych doświadczeń w wyszukiwarce, aplikacji Gemini AI i produktach innych deweloperów. Projekt Astra narodził się z Google DeepMind jako sposób na zaprezentowanie multimodalnych możliwości sztucznej inteligencji niemal w czasie rzeczywistym.

Tryb AI w wyszukiwarce Google

Google wprowadza tryb AI, eksperymentalną funkcję wyszukiwarki Google, która pozwala użytkownikom zadawać złożone, wieloczęściowe pytania za pośrednictwem interfejsu sztucznej inteligencji.

Tryb AI będzie obsługiwał wykorzystanie złożonych danych w zapytaniach sportowych i finansowych, a także będzie oferował opcje „przymierzania” odzieży. Funkcja Search Live, która zostanie wprowadzona jeszcze tego lata, pozwoli na zadawanie pytań w oparciu o to, co w czasie rzeczywistym widzi kamera telefonu.

Więcej aktualizacji AI

Google uruchamia Gemini w Chrome, co da użytkownikom dostęp do nowego asystenta przeglądania AI, który pomoże im szybko zrozumieć kontekst strony i wykonać zadania.

Gemma 3n to model zaprojektowany do „płynnego” działania na telefonach, laptopach i tabletach. Jest on dostępny w wersji zapoznawczej – według Google może obsługiwać dźwięk, tekst, obrazy i filmy.

Firma ogłosiła również szereg funkcji AI Workspace, które pojawią się w Gmailu, Dokumentach Google i Google Vids. Przede wszystkim Gmail otrzyma spersonalizowane inteligentne odpowiedzi i nową funkcję czyszczenia skrzynki odbiorczej, podczas gdy Vids otrzyma nowe sposoby tworzenia i edytowania treści.

Przeglądy wideo pojawią się w NotebookLM, a firma wprowadziła SynthID Detector, portal weryfikacyjny, który wykorzystuje technologię znakowania wodnego SynthID firmy Google, aby pomóc w identyfikacji treści generowanych przez sztuczną inteligencję.

Lyria RealTime, model sztucznej inteligencji, który zasila eksperymentalną aplikację do produkcji muzyki, jest teraz dostępny za pośrednictwem interfejsu API.

Tagi