PLLuM, polski model AI gotowy do działania. Potrafi tworzyć e-maile i wnioski
Znamy już główne założenia nowego wariantu polskiego modelu AI. PLLuM został zaktualizowany i zoptymalizowany. Teraz potrafi m.in. tworzyć oficjalne e-maile czy wnioski i lepiej formatuje odpowiedzi. Twórcy przekonują, że to wyraźny sygnał, że projekt "nie zwalnia tempa".
2025-07-16, 19:33
- PLLuM (Polish Large Language Model) to model językowy stworzony dla administracji, firm i naukowców, a także dla obywateli - w formie czatbotu.
- Nowy wariant został zaprezentowany w środę. Pokazał go Instytut NASK.
- PLLuM został wytrenowany na większym zbiorze danych i dostrojony do nowych zadań.
- Model został udostępniony w trzech wariantach. Więcej o nich poniżej.
Polski model językowy PLLuM w nowej odsłonie
Pełna nazwa nowego modelu to PLLuM-12B-nc-250715. Twórcy przekonują, że został wytrenowany na "znacznie lepiej" przygotowanym i większym zbiorze danych. Został też dostrojony do nowych zadań, w tym urzędowych. Prezentacją zajął się Instytut NASK (Naukowa i Akademicka Sieć Komputerowa - Państwowy Instytut Badawczy).
Model PLLuM-12B-nc-250715 powstał w trzech wariantach, które różnią się stopniem przygotowania do konkretnych zadań:
- BASE - to podstawowa wersja, która przeszła pełną adaptację językową na ogromnym polskojęzycznym zbiorze danych liczącym ok. 140 miliardów słów. To fundament, na którym zbudowano kolejne odsłony modelu.
- INSTRUCT - wariant instrukcyjny, dostrojony do realizacji szeregu zadań w języku polskim. Oznacza to, że został nauczony aby odpowiadać na pytania i realizować polecenia na podstawie par promptów (zapytań - red.) i przykładowych odpowiedzi, co ułatwia mu lepsze rozumienie intencji użytkownika.
- CHAT - to najbardziej zaawansowana wersja, która przeszła dodatkowe "wychowanie". Oprócz adaptacji językowej i dostrajania na instrukcjach, została zabezpieczona i dostosowana do oczekiwań użytkowników. Oparto ją na zbiorach promptów oraz odpowiedzi ocenianych przez ludzi jako lepsze lub gorsze, co pomaga jej reagować precyzyjniej i bezpieczniej podczas rozmów.
Trenowany w trzech miejscach. "W pełni zgodny z prawem"
Model trenowany był m.in. na tekstach z domeny gov.pl, Biuletynu Informacji Publicznej oraz Biblioteki Nauki. - Dane gromadzone są w sposób w pełni zgodny z prawem polskim i europejskim - podkreśliła dr Agnieszka Karlińska z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu NASK.
- Od początku staliśmy na stanowisku, że masowe kopiowanie gotowych modeli AI, tzw. silnych LLM-ów wiąże się z szeregiem zagrożeń. Dlatego wypracowujemy metodologię kontrolowanego generowania danych syntetycznych, czyli takich, które powstają z udziałem innych modeli, ale są sprawdzane i zatwierdzane przez ludzi - wskazał dr hab. Piotr Pęzik, prof. Uniwersytetu Łódzkiego, kierownik operacyjny projektu HIVE AI, odpowiedzialnego za polski model. Dzięki temu PLLuM lepiej rozumie polski kontekst kulturowy i odpowiada precyzyjniej, a także generuje mniej zbędnych i przypadkowych słów.
Odporny na ataki promoptowe i "złośliwe" instrukcje
Model został też dodatkowo zabezpieczony przed atakami. Testy podatności pokazały, że skuteczność ataków promptowych udało się zmniejszyć do 2-3 przypadków na 100 prób. To znacznie mniej niż w przypadku innych otwartych modeli - zaznaczył NASK. Ataki promptowe (z ang. prompt injection) to technika, w której atakujący kieruje "złośliwe" instrukcje, obchodząc zabezpieczone modele, wskutek czego może dojść np. do generowania szkodliwych odpowiedzi, czy ujawniania poufnych informacji.
Dr Karlińska zapowiedziała, że konsorcjum HIVE "już wkrótce" zaprezentuje drugi produkt z rodziny PLLuM - prototyp asystenta (czatbota) obywatelskiego, który posłuży badaczom do zbierania promptów pod kątem wdrożenia modeli PLLuM w aplikacji mObywatel. NASK podała, że kolejne premiery konsorcjum HIVE AI zostaną ogłoszone w najbliższych tygodniach.
Więcej informacji na oficjalnej stronie NASK.
- Obraźliwe wpisy AI. "Grok najpierw sprawdza posty Elona Muska"
- Gawkowski ostrzega: jeśli X stanie się zagrożeniem, rząd może go wyłączyć
Źródło: nask.pl/pb