Inteligentny system kamer obserwacyjnych

Prototypowy system analizy obrazu z kamer obserwacyjnych stworzony na Uniwersytecie Kalifornii, Los Angeles potrafi tworzyć tekstowe opisy tego, co dzieje się na rejestrowanych przez siebie obrazach.

 

Przeszukiwanie dużych zasobów wideo jest w chwili obecnej mocno problematyczne. Aby zmienić tę sytuację, Song-Chun Zhu oraz jego współpracownicy, Benjamin Yao i Haifeng Gong stworzyli system o nazwie I2T (Image to Text) - "Obraz do tekstu". Potrafi on analizować nagrania z kamer obserwacyjnych i opisywać je tekstem, takim jak "od 23:14 do 23:19 samochód1 jedzie za samochodem 2", potrafi również czasem zidentyfikować powracający do obserwowanego miejsca obiekt i stwierdzić "prawdopodobnie na miejscu pojawia się ponownie samochód241".

 

Przetwarzanie obrazów z kamer obserwacyjnych nie jest specjalnie trudne w porównaniu do analizowania filmów z ruchomych kamer. Tło jest zawsze takie same, więc zignorowanie go przez system jest dość proste. Ale nawet, jeżeli system sprawdzi się wyłącznie w takich zastosowaniach to jego przydatność może okazać się dość wysoka - działające 24 godziny na dobę i 7 dni w tygodniu kamery systemów bezpieczeństwa rejestrują gigantyczne ilości danych i przeszukiwanie i przetwarzanie ich bez jakiegoś systemu sztucznej inteligencji, takiego jak I2T.

 

Kluczowym elementem systemu jest baza danych z powiązaniami pomiędzy obrazami a tekstami. W systemie I2T wiedza ta została uzyskana przez crowdsourcing - w 2005 Zhu założył w Chinach Lotus Hill Institute, organizację nonprofit, która przy wsparciu finansowym chińskiego rządu wynajęła 20 absolwentów lokalnych akademii plastycznych, którzy pracując na pełen etat opisali dokładnie ponad dwa miliony obrazów, identyfikując znajdujące się na nich obiekty i przypisując do ponad 500 kategorii. W sumie rozwiązanie to wydaje się być dość przyszłościowe, ponieważ łatwo skaluje się w górę...

 

[via Technology Review]

 

Leszek Karlik

Więcej o: