Sztuczna inteligencjaPolecane tematy

Rozwój Bielika dostanie „rozpędu” dzięki wsparciu polskiego biznesu

Z Sebastianem Kondrackim, Chief Innovation Officer w Deviniti i współtwórcą projektu SpeakLeash, rozmawiam o: wsparciu Rafała Brzoski i InPost w rozwoju polskiego modelu językowego Bielik; udostępnieniu Fundacji SpeakLeash „polskich” zasobów GPU; budowy know-how potrzebnego do balansowania i optymalizacji modeli w zastosowaniach enterprise; planach rozwoju Bielika w roku 2026 i modelu jego licencjonowania.

Rozwój Bielika dostanie „rozpędu” dzięki wsparciu polskiego biznesu

Rafał Brzoska zadeklarował wsparcie własne i InPost w rozwoju Bielika. Na czym ono dokładnie polega? Wsparli Was finansowo?

Wsparcie Rafała Brzoski i InPost ma charakter wielopoziomowy. Nie ukrywam, że daje nam ogromny wiatr w żagle, zwłaszcza w kontekście ekspansji międzynarodowej. Po pierwsze, InPost wspiera nas również bezpośrednio finansowo jako sponsor rozwoju projektu.

Po drugie, InPost w całości finansuje projekt „Nakarm Bielika”. To inicjatywa, która zapewnia nam bezcenny kapitał XXI wieku, czyli dane i wiedzę: od aspektów czysto technicznych, takich jak skalowanie modelu przy bardzo dużej wolumetrii zapytań, po zrozumienie realnego sposobu użycia przez użytkowników spoza branży AI i dużego biznesu.

Mówimy tu o bardzo szerokim spektrum zastosowań – od materiałów edukacyjnych, przez zadania kreatywne, jak pisanie życzeń świątecznych czy bajek dla dzieci, aż po codzienne zastosowania użytkowników. Chcemy po prostu wiedzieć, w czym Bielik jest dobry, a w czym słabszy. Idea jest prosta – zbieramy feedback w postaci kciuka w górę lub w dół.

Trzecim i być może najważniejszym elementem jest powołanie przez Rafała Brzoskę Rady Biznesu przy Bieliku. Jej celem jest wsparcie polskiego AI i zbudowanie jego rozpoznawalności na świecie tak, aby na polskiej technologii mogły powstawać innowacyjne usługi i startupy o globalnym zasięgu.

InPost w całości finansuje projekt „Nakarm Bielika”. To inicjatywa, która zapewnia nam bezcenny kapitał XXI wieku, czyli dane i wiedzę: od aspektów czysto technicznych, takich jak skalowanie modelu przy bardzo dużej wolumetrii zapytań, po zrozumienie realnego sposobu użycia przez użytkowników spoza branży AI i dużego biznesu.

Dodam jeszcze, że tempo i skala tych działań bardzo pozytywnie nas zaskoczyły. W Bieliku, jak wiesz, działamy w trybie sprintów na każdym etapie rozwoju. Teraz już wiem, skąd bierze się energia InPostu w generowaniu innowacji. Po prostu czuć, że mają to w DNA.

Jaki cel ma akcja „Nakarm Bielika”? Zapytania od użytkowników aplikacji InPost pozwalają Wam dalej „trenować” model?

Tak i nie. Użytkownicy zadają pytania, a model odpowiada. Ale nie mamy żadnej pewności co do jakości wiedzy, którą użytkownicy mogliby ewentualnie wprowadzać, np. poprzez korekty czy sugestie. Wykorzystywanie takich surowych danych do trenowania modelu wiązałoby się z ogromnym ryzykiem dla jego jakości.

Bielik ma 11 mld parametrów i jesteśmy znani z bardzo restrykcyjnego podejścia do danych treningowych. Po prostu nie stać nas na „dolewanie cukru do benzyny”. Dane są dla modelu paliwem, a ich jakość bezpośrednio decyduje o jego osiągach.

Dlatego kluczowa jest dla nas nie sama treść zapytań, lecz wiedza o tym, jak model jest używany: jakie kategorie pytań dominują, w których obszarach Bielik radzi sobie dobrze, a gdzie zawodzi.

Jeśli zobaczymy, że bardzo wielu użytkowników pyta np. o historię najnowszą, zagadki matematyczne czy zadania z fizyki i jednocześnie wykryjemy w tych obszarach słabości, wtedy sięgniemy po nowe zestawy danych – o ile są dostępne na otwartych licencjach – albo dane zakupimy lub wygenerujemy syntetycznie.

Bielik ma 11 mld parametrów i jesteśmy znani z bardzo restrykcyjnego podejścia do danych treningowych. Po prostu nie stać nas na „dolewanie cukru do benzyny”. Dane są dla modelu paliwem, a ich jakość bezpośrednio decyduje o jego osiągach. Dlatego kluczowa jest dla nas nie sama treść zapytań, lecz wiedza o tym, jak model jest używany.

Podsumowując: zagregowane statystyki i feedback od użytkowników realnie pomagają nam ulepszać i dalej trenować Bielika. Natomiast surowe dane z rozmów mogłyby bardziej zaszkodzić niż pomóc.

Co to znaczy, że Bielik AI i InPost to „dwie fabryki polskiego AI” i jaką skalę infrastruktury GPU to oznacza?

Jeśli chodzi o GPU, korzystamy wyłącznie z polskiej infrastruktury — z zasobów Akademickie Centrum Komputerowe Cyfronet AGH oraz Beyond.pl. Co do dokładnej liczby kart, nie mogę jej zdradzić. Skala projektu mówi jednak sama za siebie. Aplikacja InPost ma ponad 15 mln użytkowników w Polsce, a przycisk „Nakarm Bielika” znajduje się na stronie głównej. Trudno go przeoczyć. To oznacza ogromny wolumen realnych zapytań.

Używamy klastrów opartych na kartach H100 oraz H200. Jest to bez wątpienia jeden z największych projektów inferencyjnych w Europie. A jeśli dodamy do tego infrastrukturę GPU wykorzystywaną przez model PLLuM w aplikacji mObywatel oraz skalę liczby czatów, to można śmiało powiedzieć, że – jako polski ekosystem AI – wspólnie budujemy jedne z najwyższych statystyk wykorzystania w całej Europie. Choć pewnie Mistrala trudno będzie przebić.

Wspominasz o ogromnej ilości kodu i know-how potrzebnych do balansowania i optymalizacji modeli w zastosowaniach Enterprise oraz do dostrajania Bielika pod GPU. Co to w praktyce oznacza?

Zarówno ACK Cyfronet AGH w Krakowie, jak i Beyond.pl w Poznaniu mają własne mechanizmy balansowania ruchu pomiędzy pojedynczymi kartami GPU. Natomiast prawdziwym wyzwaniem było połączenie tych dwóch, geograficznie odrębnych centrów obliczeniowych w jeden, spójny system. W tym celu nasi inżynierowie napisali od podstaw własny Balancer, który integruje oba ośrodki w jedną infrastrukturę obliczeniową.

Korzystamy wyłącznie z polskiej infrastruktury — z zasobów Akademickie Centrum Komputerowe Cyfronet AGH oraz Beyond.pl. Jest to bez wątpienia jeden z największych projektów inferencyjnych w Europie. A jeśli dodamy do tego infrastrukturę GPU wykorzystywaną przez model PLLuM w aplikacji mObywatel oraz skalę liczby czatów, to można śmiało powiedzieć, że – jako polski ekosystem AI – wspólnie budujemy jedne z najwyższych statystyk wykorzystania w całej Europie.

Co istotne, w całym projekcie nie korzystaliśmy z zagranicznych konsultantów. Wszystko zostało zrealizowane przez polskie zespoły, w tym InPostu. To ogromny wkład tej firmy w rozwój polskiego AI. Jej inwestycja dotyczyła nie tylko sprzętu, ale przede wszystkim wiedzy. Dzięki temu inżynierowie z różnych środowisk biznesowych oraz nasz zespół trenujący modele zdobyli kompetencje przy realizacji jednego z największych tego typu projektów w Europie.

Reasumując: jesteśmy dziś gotowi budować zarówno polskie fabryki AI, jak i gigafabryki AI, bez obaw o wydajność czy skalę. Do tego dochodzi cały ekosystem wokół modeli takich, jak Bielik – od kompaktowych architektur, przez aplikacje do inferencji i parametryzację, po prompty systemowe. To wiedza, którą możemy wykorzystywać w dowolnych projektach komercyjnych, naukowych i w sektorze publicznym.

Wspominasz też o roadmapie rozwojowej. Co szykujecie na 2026 rok?

Dużo modeli – i to już w styczniu i lutym. Ale mówiąc o dużych premierach, od pewnego czasu konsekwentnie komunikujemy prace nad dwoma, kluczowymi kierunkami: modelami wnioskującymi oraz modelami multimodalnymi, w szczególności VLM. Początek roku jest w całości poświęcony pracom właśnie nad tymi dwoma klasami modeli.

Równolegle chcemy jeszcze mocniej rozwinąć Eskadrę Bielika, która pod koniec 2025 roku okazała się ogromnym sukcesem i zbudowała bardzo silną społeczność wokół projektu.

Na rynku pojawiają się właśnie bardzo małe, a jednocześnie niezwykle wydajne serwery GPU, np. z procesorami GB10 opartymi o architekturę NVIDIA Blackwell. Taka kompaktowa maszyna oferuje nawet ok. 1 Petaflopa mocy obliczeniowej. Bielik działa na niej znakomicie. Otwiera to zupełnie nowe możliwości wdrożeń on-premise i Edge AI.

Moją szczególną inicjatywą jest projekt Obywatel Bielik. Wreszcie powinna pojawić się aplikacja mobilna. My zaś chcemy mocno zawalczyć o Obywatelskie Zestawy Danych – zwłaszcza w obszarze dziedzictwa kulturowego, tradycji i szeroko rozumianej polskiej tożsamości. Chcemy jednak też zmienić ten projekt na europejski i już rozmawiamy z kilkoma państwami w tym obszarze.

Do gry dołączyła też Polska Press, która wspólnie z nami uruchomiła akcję FotoGrai na setkach swoich serwisów. Tak, jak na początku rozwoju naszego projektu ITwiz, który dostarczył nam bibliotekę swoich tekstów z ostatnich 10-12 lat.

Już rozpoczęliśmy także prace nad Bielik Summit 2026, który w tym roku chcemy wynieść do rangi wydarzenia europejskiego. Naszym celem jest, aby – pod względem uczestników i prelegentów – wejść do absolutnej ekstraklasy konferencji AI w Europie.

To tak w wielkim skrócie (śmiech). Są jeszcze projekty z kolejnymi partnerami. Ale będziemy odkrywać karty na bieżąco.

Michał Furmankiewicz poinformował, że Bielik jest już w Microsoft Foundry. W ilu chmurach jest już dostępny? W ilu będzie w ciągu tego roku?

Po pierwsze, Bielik działa na polskich superkomputerach – jest dostępny zarówno w ACK Cyfronet AGH, jak i w Poznańskim Centrum Superkomputerowo-Sieciowym, z myślą o naukowcach i sektorze publicznym. Jest również dostępny w usłudze Sherlock od CloudFerro. Przez cały czas każdy może korzystać z Bielika także na platformie NVIDIA.

Do tego dochodzi infrastruktura w Beyond.pl oraz Microsoft Foundry. W ekosystemie Google model jest dostępny w ramach usługi Vertex AI. Prawie jednym kliknięciem można go też pobrać z Hugging Face i uruchomić w chmurze Google.

Moją szczególną inicjatywą jest projekt Obywatel Bielik. Wreszcie powinna pojawić się aplikacja mobilna. My zaś chcemy mocno zawalczyć o Obywatelskie Zestawy Danych – zwłaszcza w obszarze dziedzictwa kulturowego, tradycji i szeroko rozumianej polskiej tożsamości. Chcemy jednak też zmienić ten projekt na europejski i już rozmawiamy z kilkoma państwami w tym obszarze.

To jednak nie wszystko. Na rynku pojawiają się właśnie bardzo małe, a jednocześnie niezwykle wydajne serwery GPU, np. z procesorami GB10 opartymi o architekturę NVIDIA Blackwell. Taka kompaktowa maszyna oferuje nawet ok. 1 Petaflopa mocy obliczeniowej. Bielik działa na niej znakomicie. Otwiera to zupełnie nowe możliwości wdrożeń on-premise i Edge AI.

Oferujecie Bielika na licencji Apache 2.0. Co to w praktyce oznacza dla potencjalnych użytkowników?

Bardzo dużą swobodę dla użytkowników, zwłaszcza biznesowych i instytucjonalnych. Apache 2.0 pozwala nie tylko na używanie modelu, ale też na jego modyfikowanie, fine-tuning, łączenie z własnym kodem oraz wdrażanie w produktach komercyjnych. Wszystko bez konieczności udostępniania własnych rozwiązań czy płacenia opłat licencyjnych. To licencja przyjazna dla startupów, dużych firm i sektora publicznego. Nie nakłada ograniczeń typu „non-commercial” ani „copyleft”.

Dodatkowo Apache 2.0 daje bardzo ważną rzecz dla świata Enterprise – jasność prawno-patentową. Licencja zawiera klauzulę ochrony patentowej. Znacząco zmniejsza to ryzyko prawne przy wdrożeniach produkcyjnych i sprawia, że firmy mogą bezpiecznie budować własne produkty i usługi na Bieliku.

Podsumowując, Apache 2.0 sprawia, że Bielik nie jest tylko projektem badawczym czy ciekawostką open-source, ale pełnoprawną technologią, którą można bezpiecznie i legalnie skalować w realnym biznesie, administracji publicznej i dużych systemach IT.

Ile jest już firm, osób w Radzie Biznesowej przy Bielik AI poza InPost?

To są konkretne osoby i to jest bardzo ważne rozróżnienie. Członkowie Rady pochodzą z różnych środowisk: świata akademickiego, firm technologicznych, organizacji branżowych, fundacji i dużego biznesu. Właśnie tę różnorodność chcemy utrzymać i dalej rozszerzać, także o kolejne segmenty rynku technologicznego.

Obecna, inicjalna Rada składa się z osób, które realnie miały wpływ na rozwój Bielika na dotychczasowym etapie. W kolejnych miesiącach planujemy jej stopniowe poszerzanie. Będziemy o tym informować publicznie.

Przewodniczącym Rady jest Rafał Brzoska. W jej skład wchodzą również: Piotr Dorosz, prezes zarządu Deviniti; Magda Dziewguć, Country Director Google Cloud Poland; Marek Magryś, dyrektor ACK Cyfronet AGH; Piotr Mieczkowski, dyrektor zarządzający fundacji Digital Poland, Katarzyna Z. Starosławska, wiceprezes zarządu fundacji SpeakLeash Spichlerz.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *