Klasyczne sondaże odejdą do lamusa? Naukowcy mają coś lepszego

Gigabajty danych sieciowych z wypowiedziami internautów i artykułami prasowymi stają się dziś bazą m.in. dla oceny preferencji wyborczych. Analiza sympatii politycznych przy użyciu Big Data może dostarczyć bardziej precyzyjnych wyników, niż klasyczne sondaże.

2015-10-17, 17:19

Klasyczne sondaże odejdą do lamusa? Naukowcy mają coś lepszego
Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady. Foto: Glow Images/East News

Zespół badawczy kierowany przez prof. Włodzimierza Gogołka z Uniwersytetu Warszawskiego, od kilku lat stosuje tzw. rafinację danych Big Data, na podstawie której prognozuje m.in. wyniki wyborów parlamentarnych i prezydenckich.

- Wyłuskiwanie wartościowych informacji z Big Data wymaga kilku specjalistycznych narzędzi programowych. Ich działanie polega na zbieraniu wpisów - informacji z sieci (robią to roboty), wyszukiwaniu fraz zawierających określoną nazwę, np. firmy, nazwisko, które są w sąsiedztwie słów określanych jako sentyment. Np. "polityk Abacki jest dobrym ekonomistą". Zliczając liczby fraz z pozytywnymi i negatywnymi sentymentami (w przykładzie pozytywnym sentymentem jest "dobry") uzyskujemy opinię o Abackim, np. 100 tys. dobrych opinii 1000 złych - wyjaśnił Gogołek.

Profesor z zespołem stosował metodę rafinacji dużych zbiorów danych przy okazji wyborów prezydenckich i parlamentarnych w 2011 roku. Dowiodła ona wtedy swojej wysokiej wiarygodności. Podobną analizę przeprowadzono także podczas finału kampanii w tegorocznych wyborach prezydenckich.

- W wyborach parlamentarnych i prezydenckich w 2011 roku wyniki zostały przewidziane bezbłędnie. W ostatnich wyborach prezydenckich wymowna jest procentowa różnica (zaledwie 0,66 proc.) pomiędzy liczbami pozytywnych sentymentów dotyczących każdego z kandydatów, zgromadzonymi przez nasze narzędzia w przeddzień wyborów prezydenckich 2015, która wynosiła 2,44 proc., a rzeczywistą różnicą jaka dzieliła Andrzeja Dudę i Bronisława Komorowskiego - 3,10 proc. - wskazał profesor.

Ekspert wytłumaczył, że rafinacja dużych zbiorów danych stanowi wartościową alternatywę dla ilościowych badań sondażowych, zaś dzięki automatyzacji procesów, jej koszt w porównaniu do klasycznych metod jest o wiele mniejszy.

- Klasyczne badania opierają się na analizie, najczęściej skategoryzowanych, odpowiedzi na pytania, które zadawane są określonej reprezentatywnej liczbie, setek, rzadziej tysięcy, osób. Rafinacji poddawane są natomiast miliony wpisów. Np. w ostatnich badaniach dotyczących Jana Pawła II rafinacji poddaliśmy ok. 5 mln wpisów. O wiarygodności badań klasycznych stanowi reprezentatywność próby np. tysiąc osób, w rafinacji wiarygodność implikują wcześniej uzyskane wyniki - podkreślił.

- W stosunku do tradycyjnych badań koszty rafinacji są marginalne, szczególnie jeśli dysponuje się względnie wystandaryzowanymi narzędziami: roboty kolekcjonujące wpisy, identyfikacja sentymentów, obliczanie krotności sentymentów - zauważył profesor.

Rafinacji Big Data nie należy rozpatrywać jako badawczego eksperymentu. Gogłek przekonuje, że to i podobne narzędzie znajdują zastosowania komercyjne.

- Rafinacja obejmuje bardzo szerokie spektrum możliwych badań m.in.: monitoring marki - identyfikacja bieżących zagrożeń pozytywnego obrazu marki, możliwości zbierania sentymentów dotyczących notowań spółek giełdowych. Podobnie do badań marki łatwe jest, korzystając z rafinacji, monitorowanie notowań organizacji, partii i poszczególnych osób. Identyfikacja zagrożeń: przestępstwa, wady masowych produktów itp. - powiedział.

Badanie przeprowadzone w tym roku przez IBM Institute for Business Value wśród kadry kierowniczej globalnych przedsiębiorstw dowiodło silnej potrzeby wprowadzania różnego typu analityki danych do codziennych praktyk funkcjonowania przedsiębiorstw i organizacji.

Według Hala Variana, głównego ekonomisty Google, Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady. Szacuje się, że już do 2020 roku sieć rozrośnie się do poziomu 45 zetabajtów. Do tego czasu luka na rynku pracy w USA wyniesie już ponad 1,5 mln wolnych stanowisk, czekających na obsadzenie przez specjalistów od Big Data.

PAP, kk

Polecane

REKLAMA

Wróć do strony głównej