Sztuczna inteligencja Rynek Polecane tematy

Microsoft prezentuje własne modele AI nowej generacji

Mikołaj Marszycki 3 kwietnia 2026

0 1 215 1 minuta czytania

Microsoft wzmacnia kompetencje w obszarze sztucznej inteligencji, prezentując trzy nowe modele multimodalne opracowane przez zespół Microsoft AI kierowany przez Mustafę Suleymana. MAI-Transcribe-1, MAI-Voice-1 i MAI-Image-2 odpowiadają na kluczowe potrzeby biznesowe – od transkrypcji mowy, przez generowanie głosu, po tworzenie obrazów – i są już dostępne w środowisku Microsoft Foundry oraz częściowo w MAI Playground.

Najbardziej zaawansowanym z zaprezentowanych rozwiązań jest MAI-Transcribe-1, model zamiany mowy na tekst, który według danych Microsoftu osiąga współczynnik błędów na poziomie 3,8% w benchmarku FLEURS, obejmującym 25 języków. Firma deklaruje, że przewyższa on konkurencyjne modele m.in. OpenAI i Google w większości testowanych przypadków, a jednocześnie działa nawet 2,5 razy szybciej niż dotychczasowe rozwiązania Azure. Model już teraz wykorzystywany jest w usługach takich jak Microsoft Teams czy Copilot, gdzie odpowiada za transkrypcję rozmów.

Drugim filarem jest MAI-Voice-1, model generowania mowy, który pozwala tworzyć naturalnie brzmiący dźwięk w czasie rzeczywistym – nawet 60 sekund nagrania w ciągu jednej sekundy. System umożliwia również tworzenie spersonalizowanych głosów na podstawie krótkich próbek audio, co stawia go w bezpośredniej konkurencji z wyspecjalizowanymi dostawcami rozwiązań voice AI. Microsoft podkreśla przy tym wysoką efektywność obliczeniową – model może działać nawet na pojedynczym GPU.

Trzeci komponent to MAI-Image-2, model generowania obrazów, który rozwija możliwości wcześniejszych rozwiązań firmy i – według wewnętrznych danych – plasuje się w czołówce rankingów jakości, jednocześnie oferując wyraźnie krótszy czas generowania. Model jest już integrowany z produktami Microsoftu, takimi jak Bing czy PowerPoint, oraz wykorzystywany przez partnerów biznesowych.

MAI-Transcribe-1 (zamiana mowy na tekst)
To najbardziej „inżynieryjny” z zaprezentowanych modeli i jednocześnie kluczowy element portfolio.

Zakres językowy: 25 języków (pełne pokrycie testu FLEURS)
Dokładność: średni WER (Word Error Rate) ~3,8%
Architektura: encoder audio (dwukierunkowy) + transformerowy dekoder tekstu
Obsługiwane formaty: MP3, WAV, FLAC
Limit wejścia: do 200 MB na plik
Wydajność: ~2,5× szybciej niż Azure Speech Fast (batch transcription)
Funkcje: rozróżnianie mówców, contextual biasing, streaming w czasie rzeczywistym
Benchmarki: lepsze wyniki od modeli konkurencji w większości testowanych języków
Cena: ~0,36 USD / godz. transkrypcji
Znaczenie praktyczne: Model jest już wykorzystywany w Microsoft Teams i trybie głosowym Copilota, co oznacza szybkie przejście z fazy badawczej do produkcyjnej.

MAI-Voice-1 (zamiana tekstu na mowę / generowanie głosu)
Model nastawiony na maksymalną wydajność i realistykę syntezy.

Prędkość generowania: do 60 sekund audio w 1 sekundę (≈60× real-time)
Infrastruktura: działa efektywnie nawet na pojedynczym GPU
Funkcjonalność: generowanie naturalnej mowy, voice cloning na podstawie kilku sekund próbki, zachowanie spójności głosu w długich wypowiedziach
Zastosowania: Copilot Voice, chatboty głosowe, systemy call center / IVR
Cena: ~22 USD / 1 mln znaków
Istotny aspekt techniczny: Microsoft akcentuje efektywność obliczeniową – model osiąga wysoką jakość bez konieczności skalowania infrastruktury jak u konkurencji (np. ElevenLabs).

MAI-Image-2 (zamiana tekstu na obraz)
Najbardziej „produktowy” model – już szeroko integrowany z narzędziami Microsoftu.

Modalność: generowanie obrazów z promptów tekstowych
Wydajność: ~2× szybsze generowanie względem poprzedniej wersji
Ranking: czołowe miejsca w benchmarkach typu Arena.ai
Koszty: ~5 USD / mln tokenów (input), ~33 USD / mln tokenów (generacja obrazu)
Integracje: Bing, PowerPoint, Copilot
Zastosowania enterprise: marketing (np. WPP jako early adopter), generowanie materiałów wizualnych, automatyzacja contentu.

Efektywność zamiast skali: jak Microsoft buduje przewagę kosztową w AI

Wspólnym mianownikiem nowych modeli jest nie tylko ich multimodalność, ale także nacisk na efektywność kosztową. Microsoft wyraźnie pozycjonuje je jako tańszą alternatywę dla rozwiązań konkurencji – zarówno w zakresie transkrypcji, generowania głosu, jak i obrazów. To element szerszej strategii, której celem jest obniżenie kosztów operacyjnych usług AI i zwiększenie ich dostępności dla klientów biznesowych.

Premiera modeli wpisuje się w szerszą zmianę strategiczną. Po renegocjacji umowy z OpenAI Microsoft uzyskał większą swobodę w rozwijaniu własnych technologii AI, co otworzyło drogę do budowy niezależnych modeli. Jak podkreśla Mustafa Suleyman, celem jest osiągnięcie „samowystarczalności” w obszarze sztucznej inteligencji przy jednoczesnym utrzymaniu partnerstwa z OpenAI.

Istotnym elementem tej strategii jest również sposób organizacji prac. Modele zostały opracowane przez niewielkie zespoły inżynierskie – liczące często mniej niż 10 osób – co ma przekładać się na większą efektywność i niższe koszty rozwoju. Microsoft wskazuje, że to podejście może stanowić alternatywę dla dominującego w branży modelu opierającego się na dużych, kosztownych zespołach badawczych.

Tagi