Sztuczna inteligencja Polecane tematy

Czym jest i jak działa OpenAI GPT-4o?

Adam Jadczak 14 maja 2024

0 28 224 2 minut(y) czytania

GPT-4o („o” od „omni”) to krok w kierunku znacznie bardziej naturalnej interakcji człowiek-komputer. Model ten akceptuje jako dane wejściowe dowolną kombinację tekstu, dźwięku / głosu i obrazu oraz generuje dowolną kombinację tekstu, dźwięku i obrazu.

Rozmowy z ChatGPT mają odbywać się teraz z pominięciem transkrypcji. Przyspiesza to proces, a co jeszcze ciekawsze, algorytmowi można będzie „wejść w słowo” i co umożliwi dynamiczną interakcję.

GPT4-o, będzie miał swoje „oczy”, którymi będzie oczywiście kamera w aparacie. Dzięki temu algorytm będzie mógł szybko ocenić otoczenie i jeszcze lepiej podpowiadać człowiekowi.

Oto co o nim piszą sami autorzy.

Może reagować na sygnały audio w ciągu zaledwie 232 milisekund, co jest podobne do czasu reakcji człowieka. Przed wersją GPT-4o można było używać trybu głosowego do rozmów z ChatGPT z opóźnieniami wynoszącymi średnio 2,8 sekundy (GPT-3,5) i 5,4 sekundy (GPT-4). Dorównuje wydajności GPT-4 Turbo w przypadku tekstu w języku angielskim i kodu – ze znaczną poprawą w przypadku tekstu w językach innych niż angielski.

Jest znacznie szybszy i o 50% tańszy. GPT-4o jest lepszy zwłaszcza w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli. Aby to osiągnąć, tryb głosowy składa się z trzech, oddzielnych modeli: jeden prosty model transkrybuje dźwięk na tekst, GPT-3.5 lub GPT-4 pobiera i wysyła tekst, a trzeci, prosty model konwertuje ten tekst z powrotem na dźwięk.

Proces ten oznacza, że główne źródło inteligencji, GPT-4, traci wiele informacji. Nie może bezpośrednio analizować tonu, rozróżniać wielu rozmówców czy źródeł dźwięków w tle. Nie jest też w stanie – jako wynik swojego działania – imitować śmiechu, śpiewu ani wyrażać emocji.

GPT-4o został wytrenowany kompleksowo w zakresie tekstu, obrazu i dźwięku. Oznacza to, że wszystkie źródła wejściowe i wyjściowe są przetwarzane przez tę samą sieć neuronową. „Ponieważ GPT-4o jest naszym pierwszym modelem łączącym wszystkie te modalności, wciąż badamy możliwości i ograniczenia tego modelu” – komentują autorzy projektu.

GPT-4o osiąga wydajność na poziomie GPT-4 Turbo w zakresie tekstu, rozumowania i inteligencji kodowania, ustanawiając jednocześnie nowe wysokie standardy w zakresie możliwości wielu języków, audio i wizyjnych.

GPT-4o ma wbudowane zabezpieczenia w różnych modalnościach, poprzez techniki takie, jak filtrowanie danych szkoleniowych i udoskonalanie zachowania modelu po szkoleniu. Stworzono także nowe systemy bezpieczeństwa stanowiące bariery ochronne na wyjściach głosowych.

Oceny OpenAI w zakresie cyberbezpieczeństwa, perswazji i autonomii modelu pokazują, że GPT-4o nie osiąga wyniku powyżej średniego ryzyka w żadnej z tych kategorii. Ocena ta obejmowała przeprowadzenie zestawu automatycznych i ludzkich ocen w całym procesie szkolenia modelu. „Przetestowaliśmy zarówno wersję modelu przed i po łagodzeniu bezpieczeństwa, korzystając z niestandardowego dostrajania i podpowiedzi, aby lepiej uzyskać możliwości modelu” – zapewniają przedstawiciele OpenAI.

GPT-4o przeszedł również etap współpracy zewnętrznej z ponad 70 zewnętrznymi ekspertami w takich dziedzinach, jak psychologia społeczna, uprzedzenia i uczciwość oraz dezinformacja, aby zidentyfikować ryzyko wprowadzone lub wzmocnione przez nowo dodane modalności.

„GPT-4o to nasz najnowszy krok w przesuwaniu granic głębokiego uczenia się, tym razem w kierunku praktycznej użyteczności. Przez ostatnie dwa lata włożyliśmy wiele wysiłku w poprawę wydajności na każdej warstwie stosu. Pierwszym owocem tych badań jest możliwość znacznie szerszego udostępnienia modelu na poziomie GPT-4. Możliwości GPT-4o będą wdrażane iteracyjnie” – mówią przedstawiciele OpenAI.

„Udostępniamy GPT-4o w wersji bezpłatnej ChatGPT, a użytkownikom wersji Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus” – dodają.

GPT-4o jest 2x szybszy, o połowę tańszy i ma 5x wyższe limity szybkości w porównaniu do GPT-4 Turbo. „Planujemy w nadchodzących tygodniach udostępnienie funkcjonalności audio i wideo – za pośrednictwem API – małej grupie zaufanych partnerów” – podsumowują.

Tagi