Sztuczna inteligencjaRynekPolecane tematy
IBM udostępnił nową generację dużych modeli językowych – Granite 3.0
Na jej czele znajduje się nowy model LLM: Granite 3.0 8B Instruct. Wyszkolono go na ponad 12 bilionach tokenów zweryfikowanych danych, w 12 językach naturalnych i 116 językach programowania. Jak poinformowano, Granite 3.0 8B Instruct to model korporacyjny, który ma służyć jako podstawowy element składowy dla zaawansowanych przepływów pracy. Modele Granite 3.0 udostępniono bezpłatnie, w wersji open-source.
Nową generację modeli IBM dostosowano do unikalnych potrzeb organizacji za pośrednictwem InstructLab. To oparte na współpracy, otwarte podejście do poszerzania wiedzy modeli, wykorzystujące systematycznie generowane dane syntetyczne i protokoły szkolenia etapowego.
Wszystkie modele Granite udostępniono na licencji Apache 2.0. Ponadto, w dokumencie technicznym Granite 3.0, IBM ujawnienia pełen zestaw danych szkoleniowych oraz metodologię. Jak zapewniają przedstawiciele koncernu, ma to sprzyjać budowaniu przejrzystości, bezpieczeństwa i zaufania do produktów AI.
IBM Granite 3.0 obejmuje:
- Gęste maszyny LLM ogólnego przeznaczenia: Granite-3.0-8B-Instruct, Granite-3.0-8B-Base, Granite-3.0-2B-Instruct i Granite-3.0-2B-Base.
- Modele poręczy wejścia-wyjścia oparte na LLM: Granite-Guardian-3.0-8B, Granite-Guardian-3.0-2B.
- Modele mieszanki ekspertów (MoE) zapewniające minimalne opóźnienia: Granite-3.0-3B-A800M-Instruct, Granite-3.0-1B-A400M-Instruct.
- Dekoder spekulacyjny zwiększający szybkość i wydajność wnioskowania: Granite-3.0-8B-Instruct-Accelerator.
Jak poinformowano, jeszcze w 2024 roku zaplanowano aktualizacje, które obejmować mają rozszerzenie wszystkich okien kontekstu modelu do 128 tys. tokenów. A także dalsze ulepszenia obsługi wielojęzycznej dla 12 języków naturalnych oraz wprowadzenie multimodalnych funkcji wprowadzania obrazu i tekstu.
Modele Granite 3.0 8B Instruct oraz Granite 3.0 2B Instruct, a także oba modele bezpieczeństwa Guardian 3.0, są już dostępne do użytku komercyjnego na platformie IBM watsonx. Nowe LLM-y są również dostępne za pośrednictwem partnerów – w tym Google Vertex AI (poprzez integrację Google Cloud Vertex AI Model Garden z Hugging Face), Hugging Face, NVIDIA (jako mikrousługi NIM), Ollama oraz Replicate.
Wspomniane modele wytrenowano przy użyciu procesorów graficznych H100 firmy Nvidia.
Jak zapewniają eksperci IBM, modele Granite 3.0 dorównują – a w niektórych przypadkach przewyższają – ogólną wydajność wiodących rozwiązań LLM typu open weight. I to zarówno w benchmarkach akademickich, jak i korporacyjnych. Przykładowo, w benchmarkach akademickich zawartych w Hugging Face’s OpenLLM Leaderboard v2, Granite 3.0 8B Instruct rywalizuje z podobnej wielkości modelami Meta i Mistral AI.