Sztuczna inteligencjaRynek
Chiński model AI DeepSeek popularniejszy niż ChatGPT
Opublikowany niedawno DeepSeek V3, chiński duży model językowy, bardzo szybko zyskał popularność wśród użytkowników. Wyprzedził ChatGPT i stał się najwyżej ocenianą darmową aplikacją dostępną w sklepie Apple App Store w Stanach Zjednoczonych, poinformował Reuters.
DeepSeek V3 – za którym stoi, mały startup założony w 2021 roku – jest pierwszym chińskim modelem AI, który został pochwalony przez branżę technologiczną jako dorównujący, a nawet przewyższający wydajnością najnowocześniejsze rozwiązania amerykańskie.
Zgodnie z wewnętrznymi testami porównawczymi chińskiego startupu, DeepSeek V3 przewyższa zarówno “otwarte” modele do pobrania, jak i te „zamknięte”, do których można uzyskać dostęp tylko za pośrednictwem interfejsu API.
Model DeepSeek V3 wytrenowano przy użyciu procesorów graficznych Nvidia H800 w ciągu zaledwie dwóch miesięcy. Przypomnijmy, że chodzi o chipy AI, których zakup został niedawno ograniczony przez Departament Handlu USA. Chociaż eksperci kwestionują tę informację, chińska firma twierdzi również, że na szkolenie modelu wydała “zaledwie” ok. 6 milionów dolarów. Kwota ta stanowi ułamek kosztów rozwoju modeli takich jak GPT-4 firmy OpenAI. DeepSeek V3 wymaga też znacznie mniej mocy obliczeniowej, a przez to jest bardziej energooszczędny.
DeepSeek V3
- 60 tokenów/sekundę (3x szybciej niż V2!).
- 671 miliardów parametrów (ok. 1,5x więcej niż Llama 3.1).
- 37 miliardów aktywowanych parametrów.
- Nienaruszona kompatybilność API.
- Przetrenowany na 14.8 bilionów tokenów (1 milion tokenów odpowiada za około 750 000 słów).
- W pełni open-source’owe modele i dokumenty.
Co ciekawe, model R1 firmy DeepSeek – naśladujący aspekty ludzkiego rozumowania – również oceniono bardzo wysoko. W rożnych testach porównawczych przewyższył m.in. najnowszy model o1 firmy OpenAI. Zarówno DeepSeek R1, jak i DeepSeek V3, znajdują się obecnie w pierwszej dziesiątce na Chatbot arena, rankingu który ocenia wydajność wiodących chatbotów.
Startup DeepSeek wspierany jest przez High-Flyer Capital Management, chiński fundusz hedgingowy, który wykorzystuje AI do podejmowania decyzji handlowych. Buduje on własne klastry serwerów do szkolenia modeli, z których jeden z najnowszych ma ponoć 10 000 procesorów graficznych Nvidia A100 i kosztował 1 miliard jenów (ok. 138 milionów dolarów) – twierdzi serwis TechCrunch. High-Flyer dąży do osiągnięcia „superinteligentnej” sztucznej inteligencji właśnie poprzez startup DeepSeek.