Sztuczna inteligencja miała test z historii. Wynik to tylko 46 proc., naukowcy zaskoczeni

Sztuczna inteligencja nie radzi sobie z pytaniami z historii. - Jednym z zaskakujących wniosków naszych badań było to, że sprawdzone przez nas modele AI bardzo słabe - mówi prof. Peter Turchin, autor badań. Mimo obszernych zasobów informacji AI nie umie interpretować faktów.

2025-01-23, 11:45

Sztuczna inteligencja miała test z historii. Wynik to tylko 46 proc., naukowcy zaskoczeni — Czy sztuczna inteligencja w każdym obszarze wiedzy może konkurować z człowiekiem?. Foto: Shutterstock/metamorworks

ChatGPT nie dorównuje doktorom historii

Czy oparte na sztucznej inteligencji chatboty mogłyby pomóc historykom i archeologom w zbieraniu danych i lepszym zrozumieniu przeszłości? Postanowili to sprawdzić naukowcy z Complexity Science Hub (CSH) w Wiedniu w Austrii, twórcy tworzonej od dekady bazy Seshat Global History Databank.

Poddali testom różne systemy sztucznej inteligencji. Jeden z popularnych modeli, ChatGPT-4 Turbo, uzyskał 46 proc. punktów w teście sprawdzającym wiedzę i rozumienie historii. Naukowcy zaznaczają, że to dużo mniej niż człowiek z tytułem doktora. Choć program zna wiele faktów, to słabo sobie radzi z ich interpretacją - wynika z badań. Międzynarodowa grupa ekspertów oceniła różne wersje ChatGPT-4, Llama i Gemini.

Sukces w niektórych dziedzinach. W historii jest inaczej

- Duże modele językowe (LLMs), takie jak ChatGPT, odniosły ogromny sukces w niektórych dziedzinach - na przykład w dużej mierze zastąpiły asystentów prawnych. Jednak w kwestii oceniania cech dawnych społeczeństw, zwłaszcza tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone - mówi prof. Peter Turchin z CSH, autor badania przedstawionego w trakcie konferencji NeurIPS.

- Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że sprawdzone przez nas modele są bardzo słabe. Wynik pokazuje, że sztuczna inteligencja działa specyficznie dla danego obszaru. LLM-y radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo źle w porównaniu z ludźmi - dodaje.

AI na 46 proc. Zgadywanie daje 25 proc.

GPT-4 Turbo, który osiągnął najlepsze wyniki, uzyskał 46 proc. w teście z pytaniami wielokrotnego wyboru. Chociaż wynik ten stanowi poprawę w stosunku do bazowego poziomu 25 proc. wynikającego z losowego zgadywania, podkreśla on znaczące braki w rozumieniu wiedzy historycznej przez sztuczną inteligencję.

- Myślałam, że chatboty oparte na sztucznej inteligencji poradzą sobie znacznie lepiej. Historia często postrzegana jest jako zbiór faktów, ale czasami konieczna jest ich interpretacja, aby nadać im sens - mówi współautorka eksperymentu prof. Maria del Rio-Chanona.

Tendencyjność danych. Nadinterpretacje i zmiany narracji

Wyniki pokazały też rozbieżności w wydajności modeli w odniesieniu do historii różnych regionów geograficznych. Modele OpenAI radziły sobie lepiej w przypadku Ameryki Łacińskiej i Karaibów, podczas gdy model Llama osiągnął najlepsze wyniki w Ameryce Północnej. Wydajność modeli OpenAI i Llama była gorsza w przypadku Afryki Subsaharyjskiej, a Llama również słabo wypadł w przypadku Oceanii. Wskazuje to na potencjalną tendencyjność danych treningowych, które mogą nadmiernie akcentować niektóre narracje historyczne, zaniedbując inne - uważają badacze.

To pierwszy eksperyment tego rodzaju - informują naukowcy. Testowane systemy miały za zadanie odpowiadać na pytania na poziomie magisterskim i eksperckim, podobne do tych, na które udzielano odpowiedzi w bazie Seshat. Badacze wykorzystali wiedzę zawartą w Seshat, aby sprawdzić dokładność odpowiedzi SI.
Seshat to potężna baza gromadząca wiedzę historyczną na temat 600 społeczeństw na całym świecie, obejmująca ponad 36 tys. punktów danych i ponad 2,7 tys. odniesień.

Czytaj także:

Źródło: PAP/pg/kor

Twitter Facebook Wykop E-mail

Polecane

Zełenski ostrzega Trumpa. Europa jednym głosem

USA znoszą część sankcji w związku ze spotkaniem na Alasce

NASA wybrała zdjęcie dnia, są na nim Perseidy. Wykonał je Polak

Perseidy 2025. Dziś noc spadających gwiazd

Wróć do strony głównej

USA znoszą część sankcji w związku ze spotkaniem na Alasce

Szalona końcówka Superpucharu UEFA. Co za powrót PSG

Tusk spotka się z Nawrockim. Jest potwierdzenie

Płonie hala na Pomorzu. Utracono kontakt ze strażakiem

Sztuczna inteligencja miała test z historii. Wynik to tylko 46 proc., naukowcy zaskoczeni

Sztuczna inteligencja nie radzi sobie z pytaniami z historii. - Jednym z zaskakujących wniosków naszych badań było to, że sprawdzone przez nas modele AI bardzo słabe - mówi prof. Peter Turchin, autor badań. Mimo obszernych zasobów informacji AI nie umie interpretować faktów.

ChatGPT nie dorównuje doktorom historii

Sukces w niektórych dziedzinach. W historii jest inaczej

AI na 46 proc. Zgadywanie daje 25 proc.

Tendencyjność danych. Nadinterpretacje i zmiany narracji

Polecane

Zełenski ostrzega Trumpa. Europa jednym głosem

USA znoszą część sankcji w związku ze spotkaniem na Alasce

NASA wybrała zdjęcie dnia, są na nim Perseidy. Wykonał je Polak

Perseidy 2025. Dziś noc spadających gwiazd

USA znoszą część sankcji w związku ze spotkaniem na Alasce

Szalona końcówka Superpucharu UEFA. Co za powrót PSG

Tusk spotka się z Nawrockim. Jest potwierdzenie

Płonie hala na Pomorzu. Utracono kontakt ze strażakiem

Tusk ocenił Pełczyńską-Nałęcz. Padło pytanie o mobbing