Sztuczna inteligencja Rynek Polecane tematy

OpenAI udostępnia o3 i o4-mini – nowe, dłużej myślące i bardziej agentowe modele AI

Mikołaj Marszycki 17 kwietnia 2025

0 3 438 2 minut(y) czytania

Jak zapewniają przedstawiciele OpenAI, „są to najinteligentniejsze modele, jakie udostępniliśmy do tej pory”. Po raz pierwszy modele z serii o autonomicznie wykorzystują i łączą bowiem wszystkie narzędzia ChatGPT. Obejmuje to przeszukiwanie sieci, analizowanie przesłanych plików i innych danych za pomocą Pythona, głębokie rozumowanie na temat danych wejściowych wizualnych, a także generowanie obrazów.

Nowe modele są trenowane do rozumowania o tym, kiedy i jak używać narzędzi do generowania szczegółowych i przemyślanych odpowiedzi we właściwych formatach wyjściowych, aby rozwiązywać bardziej złożone problemy. Pozwala im to skuteczniej rozwiązywać wieloaspektowe pytania, co jest krokiem w kierunku bardziej agentowego ChatGPT.

OpenAI o3 to obecnie najpotężniejszy model rozumowania OpenAI, który przesuwa granice kodowania, matematyki, nauki czy percepcji wizualnej. Jest przeznaczony do złożonych zapytań wymagających wieloaspektowej analizy, w których odpowiedzi mogą nie być od razu oczywiste. Jak zapewniają badacze, szczególnie dobrze sprawdza się w zadaniach wizualnych, takich jak analiza obrazów, wykresów i grafik. W ocenach zewnętrznych ekspertów o3 popełnia o 20% mniej poważnych błędów niż OpenAI o1 w przypadku trudnych zadań. Poza tym przewyższa swoich poprzedników w akademickich i programistycznych testach porównawczych, takich jak Codeforces i SWE-bench. Wyróżnia się szczególnie w takich obszarach jak programowanie, biznes/konsulting i kreatywne myślenie. Pierwsi testerzy podkreślali zwłaszcza jego rygor analityczny jako partnera myślowego oraz zdolność do generowania i krytycznej oceny nowych hipotez – szczególnie w kontekstach biologii, matematyki i inżynierii.

OpenAI o4-mini to mniejszy model zoptymalizowany pod kątem szybkiego rozumowania – ma oferować bardzo dobrą wydajność w stosunku do swojego rozmiaru, szczególnie w zadaniach matematycznych, kodowania oraz wizualnych. o4-mini osiąga 99,5% dokładności w zadaniach matematycznych AIME 2025, gdy jest połączony z interpreterem Pythona. W ocenach ekspertów przewyższa również swojego poprzednika, o3‑mini, w zadaniach innych niż STEM, a także w dziedzinach takich jak nauka o danych. Dzięki swojej wydajności o4-mini obsługuje znacznie wyższe limity użytkowania niż o3.

Zewnętrzni eksperci ocenili oba modele jako wykazujące lepsze przestrzeganie instrukcji i bardziej przydatne, weryfikowalne odpowiedzi niż ich poprzednicy, dzięki ulepszonej inteligencji i uwzględnieniu źródeł internetowych. W porównaniu z poprzednimi, te dwa modele „powinny również wydawać się bardziej naturalne i konwersacyjne, zwłaszcza że odwołują się do pamięci i poprzednich rozmów, aby odpowiedzi były bardziej spersonalizowane i trafne” – czytamy w oficjalnym wpisie na blogu OpenAI.

Jak zapewniają specjaliści OpenAI, po raz pierwszy modele te mogą integrować obrazy bezpośrednio ze swoim łańcuchem myśli. Nie tylko widzą obraz, ale i myślą nim. „Odblokowuje to nową klasę rozwiązywania problemów, która łączy rozumowanie wizualne i tekstowe, co znajduje odzwierciedlenie w ich najnowocześniejszej wydajności w multimodalnych testach porównawczych” – czytamy na blogu OpenAI. Przykładowo, użytkownicy mogą przesyłać obrazy lub diagramy – nawet takie o niskiej jakości (np. rozmazane) – a modele mogą je analizować, manipulować nimi i wykorzystywać je do generowania rozwiązań.

Bezpieczeństwo nowych modeli

W przypadku o3 i o4-mini OpenAI całkowicie przebudowało dane szkoleniowe dotyczące bezpieczeństwa, dodając nowe monity odmowy w takich obszarach, jak zagrożenia biologiczne (biorisk), generowanie złośliwego oprogramowania i jailbreaki. To pozwoliło osiągnąć wysoką wydajność w wewnętrznych testach porównawczych w przypadku odmów. Opracowano również środki zaradcze na poziomie systemu, aby oznaczać niebezpieczne monity w obszarach ryzyka granicznego. W efekcie oceny wykazały, że oba modele pozostają poniżej kluczowych progów możliwości dla kategorii wysokiego ryzyka ocenianych w ramach Preparedness Framework OpenAI.

Codex CLI

Firma udostępniła również Codex CLI, lekkiego agenta kodowania, którego można uruchomić z terminala. Działa on bezpośrednio na komputerze i został zaprojektowany tak, aby zmaksymalizować możliwości rozumowania modeli takich jak o3 i o4-mini. Narzędzie to pozwala użytkownikom przekazywać szkice lub zrzuty ekranu do terminala i otrzymywać multimodalne rozumowanie w odpowiedzi. Codex CLI jest udostępniony open source.

Tagi