Sztuczna inteligencja miała test z historii. Wynik to tylko 46 proc., naukowcy zaskoczeni
Sztuczna inteligencja nie radzi sobie z pytaniami z historii. - Jednym z zaskakujących wniosków naszych badań było to, że sprawdzone przez nas modele AI bardzo słabe - mówi prof. Peter Turchin, autor badań. Mimo obszernych zasobów informacji AI nie umie interpretować faktów.
2025-01-23, 11:45
ChatGPT nie dorównuje doktorom historii
Czy oparte na sztucznej inteligencji chatboty mogłyby pomóc historykom i archeologom w zbieraniu danych i lepszym zrozumieniu przeszłości? Postanowili to sprawdzić naukowcy z Complexity Science Hub (CSH) w Wiedniu w Austrii, twórcy tworzonej od dekady bazy Seshat Global History Databank.
Poddali testom różne systemy sztucznej inteligencji. Jeden z popularnych modeli, ChatGPT-4 Turbo, uzyskał 46 proc. punktów w teście sprawdzającym wiedzę i rozumienie historii. Naukowcy zaznaczają, że to dużo mniej niż człowiek z tytułem doktora. Choć program zna wiele faktów, to słabo sobie radzi z ich interpretacją - wynika z badań. Międzynarodowa grupa ekspertów oceniła różne wersje ChatGPT-4, Llama i Gemini.
Sukces w niektórych dziedzinach. W historii jest inaczej
- Duże modele językowe (LLMs), takie jak ChatGPT, odniosły ogromny sukces w niektórych dziedzinach - na przykład w dużej mierze zastąpiły asystentów prawnych. Jednak w kwestii oceniania cech dawnych społeczeństw, zwłaszcza tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone - mówi prof. Peter Turchin z CSH, autor badania przedstawionego w trakcie konferencji NeurIPS.
- Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że sprawdzone przez nas modele są bardzo słabe. Wynik pokazuje, że sztuczna inteligencja działa specyficznie dla danego obszaru. LLM-y radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo źle w porównaniu z ludźmi - dodaje.
REKLAMA
AI na 46 proc. Zgadywanie daje 25 proc.
GPT-4 Turbo, który osiągnął najlepsze wyniki, uzyskał 46 proc. w teście z pytaniami wielokrotnego wyboru. Chociaż wynik ten stanowi poprawę w stosunku do bazowego poziomu 25 proc. wynikającego z losowego zgadywania, podkreśla on znaczące braki w rozumieniu wiedzy historycznej przez sztuczną inteligencję.
- Myślałam, że chatboty oparte na sztucznej inteligencji poradzą sobie znacznie lepiej. Historia często postrzegana jest jako zbiór faktów, ale czasami konieczna jest ich interpretacja, aby nadać im sens - mówi współautorka eksperymentu prof. Maria del Rio-Chanona.
Tendencyjność danych. Nadinterpretacje i zmiany narracji
Wyniki pokazały też rozbieżności w wydajności modeli w odniesieniu do historii różnych regionów geograficznych. Modele OpenAI radziły sobie lepiej w przypadku Ameryki Łacińskiej i Karaibów, podczas gdy model Llama osiągnął najlepsze wyniki w Ameryce Północnej. Wydajność modeli OpenAI i Llama była gorsza w przypadku Afryki Subsaharyjskiej, a Llama również słabo wypadł w przypadku Oceanii. Wskazuje to na potencjalną tendencyjność danych treningowych, które mogą nadmiernie akcentować niektóre narracje historyczne, zaniedbując inne - uważają badacze.
To pierwszy eksperyment tego rodzaju - informują naukowcy. Testowane systemy miały za zadanie odpowiadać na pytania na poziomie magisterskim i eksperckim, podobne do tych, na które udzielano odpowiedzi w bazie Seshat. Badacze wykorzystali wiedzę zawartą w Seshat, aby sprawdzić dokładność odpowiedzi SI.
Seshat to potężna baza gromadząca wiedzę historyczną na temat 600 społeczeństw na całym świecie, obejmująca ponad 36 tys. punktów danych i ponad 2,7 tys. odniesień.
REKLAMA
- Zachwyca, ale też przeraża. Poznaj możliwości nowego silnika sztucznej inteligencji Sora AI, który tworzy filmy
- "Chcę po prostu mieć pokój na świecie". Sztuczna inteligencja nie miałaby oporów przed użyciem ataku nuklearnego
Źródło: PAP/pg/kor
REKLAMA