Sztuczna inteligencja Rynek

Google udostępniło w Polsce Veo3, najnowszy model generowania wideo z dźwiękiem

Mikołaj Marszycki 3 lipca 2025

0 6 455 Mniej niż minutę

Narzędzie to pozwala tworzyć 8-sekundowe filmy wideo w rozdzielczości 720p wraz z dźwiękiem, na podstawie prostych opisów tekstowych. Veo3 jest dostępne dla subskrybentów pakietu Google AI Pro w aplikacji Gemini.

Veo 3 to najnowszy model generatywnej AI od Google, który umożliwia tworzenie krótkich filmów z dźwiękiem i dialogami na podstawie promptu, który opisuje scenę (postaci, akcję i nastrój). Wygenerowane wideo ma format panoramiczny 16:9, trwa 8 sekund i jest dostarczane jako plik MP4.

Z Veo 3 można korzystać bezpośrednio z poziomu aplikacji Gemini – wystarczy kliknąć „Narzędzia” przy pasku promptu i wybrać opcję „Film”. Jak zapewniają specjaliści Google, narzędzie świetnie sprawdza się w tworzeniu dynamicznych klipów do mediów społecznościowych, krótkich wizualizacji koncepcji, a nawet spersonalizowanych memów.

Aby osiągnąć najlepsze efekty, Google zaleca szczegółowo opisywać główną postać, lokalizację, styl wizualny i nastrój. Veo potrafi też dopasować dźwięk do ruchów ust postaci, a wygenerowane filmy są automatycznie oznaczane znakami wodnymi – widocznym i niewidocznym (SynthID) – zapewniającymi transparentność pochodzenia treści.

Zalety Google Veo3:

Natywne generowanie dźwięku i obrazu z naturalnie brzmiącą mową i szumem tła lub muzyką.
Realistyczna symulacja fizyki elementów takich jak woda, tkanina i światło.
Doskonałe sterowanie kamerą kinową i kompozycja sceny.
Zaawansowane rozumienie podpowiedzi, szczególnie w przypadku wskazówek dotyczących interakcji.
Wiele opcji wprowadzania (tekst, obraz, ramki).
Zintegrowane w Flow i Gemini, z intuicyjnym interfejsem (szczególnie w Flow).
Ciągłe doskonalenie rozwiązania.

Wady Google Veo3:

Ograniczenie długości do 8 sekund.
Niespójna ciągłość postaci w scenach, nawet przy szczegółowych podpowiedziach.
Interpretacja podpowiedzi jest różna, co utrudnia powtarzalne wyniki.
Ograniczona dokładność tekstu w elementach wizualnych (np. błędnie napisane słowa).
Zdarzają się błędy i awarie podczas łączenia ujęć lub przełączania między trybami.
Widoczne znaki wodne.

Tagi