Algorytmy śledzące rozprzestrzenianie się idei

Naukowcy z Princeton opracowali nową technikę śledzenia rozprzestrzeniania się idei.

Metoda wykorzystuje komputerową analizę języka w celu przeanalizowania stopniowych zmian języka i ustalenia, które dokumenty najbardziej wpłynęły na zmianę słownictwa. Powinna ułatwić ona ocenienie, które prace naukowe czy informacje prasowe są najbardziej wpływowe. Cytując prowadzącego badanie naukowca, prof. Davida Blei:

Celem jest możliwość zarządzania eksplozją informacji umożliwioną przez komputery i przez Internet. Chcemy sprawdzić, jak przemieszczają się koncepcje. Można chcieć sprawdzić, kto stworzył jakiś termin, na przykład "kwark", lub przeszukać archiwum newsów żeby dowiedzieć się, gdzie miała miejsce

Do tej pory w nauce tradycyjnie oceniało się wpływ danego tekstu naukowego przez sprawdzenie, jak często jest cytowany przez inne teksty, ale dla gazet, zgłoszeń patentowych czy blogów nie ma odpowiednika "współczynnika cytowań". W celu opracowania lepszej metody określania wpływu danego dokumentu, prof. Blei we współpracy z doktorantem Seanem Gerrishem stworzyli model statystyczny pozwalający na analizę tekstu dokumentów, sprawdzającego jak z czasem zmienia się stosowanych w nich język. Cytujące Gerrisha:

Na przykład, może być jakaś praca wprowadzająca laser, który jest następnie wymieniany w nastepnych artykułach. Założenie jest takie, że jeden artykuł wprowadza język, który zostanie przyjęty i wykorzystany w przyszłości.

Blei i Garrish przetestowali swój algorytm na kilku dekadach raportów z trzech czasopism naukowych i ustalili, że ich wyniki zgadzały się z obliczeniami impact factor (miary oddziaływania) na podstawie cytowań w około 40 procent przypadków. Zdarzało im się również odkrywać teksty, które miały znaczący wpływ na język naukowy, ale nie były często cytowane, i na odwrót, teksty, które były często cytowane, ale nie miały wpływu na stosowany język. Stąd też model ten nie ma zastąpić określania wpływu przez liczę cytowań, ale jako alternatywna metoda, którą można zastosować również do odkrywania wpływowych informacji prasowych, stron WWW czy dokumentów prawnych i historycznych.

[via The Science Daily]

Leszek Karlik