GPT-4o („o” od „omni”) to krok w kierunku znacznie bardziej naturalnej interakcji człowiek-komputer. Model ten akceptuje jako dane wejściowe dowolną kombinację tekstu, dźwięku / głosu i obrazu oraz generuje dowolną kombinację tekstu, dźwięku i obrazu. https://www.youtube.com/live/DQacCB9tDaw?si=3_5xTS6WMCNgq05A Rozmowy z ChatGPT mają odbywać się teraz z pominięciem transkrypcji. Przyspiesza to proces, a co jeszcze ciekawsze, algorytmowi można będzie „wejść w słowo” i co umożliwi dynamiczną interakcję. GPT4-o, będzie miał swoje „oczy”, którymi będzie oczywiście kamera w aparacie. Dzięki temu algorytm będzie mógł szybko ocenić otoczenie i jeszcze lepiej podpowiadać człowiekowi. Oto co o nim piszą sami autorzy. Może reagować na sygnały audio w ciągu zaledwie 232 milisekund, co jest podobne do czasu reakcji człowieka. Przed wersją GPT-4o można było używać trybu głosowego do rozmów z ChatGPT z opóźnieniami wynoszącymi średnio 2,8 sekundy (GPT-3,5) i 5,4 sekundy (GPT-4). Dorównuje wydajności GPT-4 Turbo w przypadku tekstu w języku angielskim i kodu - ze znaczną poprawą w przypadku tekstu w językach innych niż angielski. Jest znacznie szybszy i o 50% tańszy. GPT-4o jest lepszy zwłaszcza w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli. Aby to osiągnąć, tryb głosowy składa się z trzech, oddzielnych modeli: jeden prosty model transkrybuje dźwięk na tekst, GPT-3.5 lub GPT-4 pobiera i wysyła tekst, a trzeci, prosty model konwertuje ten tekst z powrotem na dźwięk. Proces ten oznacza, że główne źródło inteligencji, GPT-4, traci wiele informacji. Nie może bezpośrednio analizować tonu, rozróżniać wielu rozmówców czy źródeł dźwięków w tle. Nie jest też w stanie – jako wynik swojego działania – imitować śmiechu, śpiewu ani wyrażać emocji. GPT-4o został wytrenowany kompleksowo w zakresie tekstu, obrazu i dźwięku. Oznacza to, że wszystkie źródła wejściowe i wyjściowe są przetwarzane przez tę samą sieć neuronową. "Ponieważ GPT-4o jest naszym pierwszym modelem łączącym wszystkie te modalności, wciąż badamy możliwości i ograniczenia tego modelu" - komentują autorzy projektu. GPT-4o osiąga wydajność na poziomie GPT-4 Turbo w zakresie tekstu, rozumowania i inteligencji kodowania, ustanawiając jednocześnie nowe wysokie standardy w zakresie możliwości wielu języków, audio i wizyjnych. GPT-4o ma wbudowane zabezpieczenia w różnych modalnościach, poprzez techniki takie, jak filtrowanie danych szkoleniowych i udoskonalanie zachowania modelu po szkoleniu. Stworzono także nowe systemy bezpieczeństwa stanowiące bariery ochronne na wyjściach głosowych. Oceny OpenAI w zakresie cyberbezpieczeństwa, perswazji i autonomii modelu pokazują, że GPT-4o nie osiąga wyniku powyżej średniego ryzyka w żadnej z tych kategorii. Ocena ta obejmowała przeprowadzenie zestawu automatycznych i ludzkich ocen w całym procesie szkolenia modelu. "Przetestowaliśmy zarówno wersję modelu przed i po łagodzeniu bezpieczeństwa, korzystając z niestandardowego dostrajania i podpowiedzi, aby lepiej uzyskać możliwości modelu" - zapewniają przedstawiciele OpenAI. GPT-4o przeszedł również etap współpracy zewnętrznej z ponad 70 zewnętrznymi ekspertami w takich dziedzinach, jak psychologia społeczna, uprzedzenia i uczciwość oraz dezinformacja, aby zidentyfikować ryzyko wprowadzone lub wzmocnione przez nowo dodane modalności. „GPT-4o to nasz najnowszy krok w przesuwaniu granic głębokiego uczenia się, tym razem w kierunku praktycznej użyteczności. Przez ostatnie dwa lata włożyliśmy wiele wysiłku w poprawę wydajności na każdej warstwie stosu. Pierwszym owocem tych badań jest możliwość znacznie szerszego udostępnienia modelu na poziomie GPT-4. Możliwości GPT-4o będą wdrażane iteracyjnie” – mówią przedstawiciele OpenAI. „Udostępniamy GPT-4o w wersji bezpłatnej ChatGPT, a użytkownikom wersji Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus” - dodają. GPT-4o jest 2x szybszy, o połowę tańszy i ma 5x wyższe limity szybkości w porównaniu do GPT-4 Turbo. „Planujemy w nadchodzących tygodniach udostępnienie funkcjonalności audio i wideo - za pośrednictwem API - małej grupie zaufanych partnerów” - podsumowują.