Sztuczna inteligencja Rynek

ElevenLabs prezentuje v3 – nowy standard w głosowym AI

Mikołaj Marszycki 6 czerwca 2025

1 1 678 Mniej niż minutę

ElevenLabs zaprezentowało Eleven v3 – nową generację modeli text-to-speech, stworzoną z myślą o maksymalnej ekspresji i realizmie mowy. Model dostępny w wersji alpha obsługuje ponad 70 języków i pozwala nie tylko czytać, ale też „grać” tekst – z emocjami, niuansami i naturalnymi przejściami.

Eleven 3 – stworzony w oparciu o zupełnie nową architekturę – oferuje niespotykany wcześniej realizm i kontrolę nad generowaniem mowy, zapewniają przedstawiciele startupu. Potrafi zmieniać tonację w trakcie zdania, płynnie przechodzić między postaciami i reagować na znaczniki takie jak [szept], [śmiech] czy [westchnienie] – wszystko bez utraty naturalności i ciągłości wypowiedzi.

Model v3 jest dostępny w wersji alpha. Wymaga o wiele bardziej zaawansowanej i precyzyjnej pracy z promptami niż poprzednie modele, ale rezultat to wyraźny skok jakościowy w ekspresji, niuansach i realizmie generowanej mowy. Eleven v3 obsługuje też znacznie więcej języków – 70, zamiast 33 w poprzednich modelach. Dalsze dostrajanie modelu pozwoli też na zwiększenie niezawodności i precyzji kontroli.

Co wyróżnia v3?

Obsługa ponad 70 języków: wzrost z 33 do ponad 70 języków – pokrycie populacji świata zwiększone z 60% do 90%.
Tryb dialogu: naturalne przerwy, zmiany tonu oraz płynność emocjonalna w dialogach między wieloma postaciami.
Obsługa tagów audio: sterowanie wypowiedzią za pomocą tagów, np. [szept], [złość], [śmiech], [skrzypienie drzwi], co pozwala na szczegółową kontrolę wykonania.
Dostępne już teraz: publiczna alpha dostępna na platformie elevenlabs.io.
Obsługa streamingu dostępna wkrótce: dla call center oraz agentów konwersacyjnych działających w czasie rzeczywistym.
Wkrótce dostępne będzie też publiczne API dla Eleven v3 (alpha).

Eleven v3 został stworzony z myślą o twórcach, deweloperach oraz firmach produkujących ekspresyjne treści – takie jak opowiadania, audiobooki, dialogi postaci oraz interaktywne media wymagające wyraźnego przekazywania emocji. Model ten premiuje eksperymentowanie oraz użycie kontekstowych promptów.

Do zastosowań wymagających bardzo niskich opóźnień (np. konwersacyjna AI) firma nadal zaleca używanie modeli v2.5 Turbo oraz Flash. Wersja v3 umożliwiająca generowanie mowy w czasie rzeczywistym jest obecnie w przygotowaniu.

Tagi