Senat pod okiem Sztucznej Inteligencji. Będzie znać twarze i rozpozna głosy. Znajdzie i przekaże mowę każdego z senatorów

Senat chce stworzyć nowy system odpowiedzialny za tworzenie stenogramów. Jego sercem ma być sztuczna inteligencja, która rozpozna mówcę po twarzy i głosie oraz automatycznie przełoży słowa na pismo.
Zobacz wideo

Senat zamierza zrewolucjonizować tworzenie stenogramów. Kancelaria zorganizowała konkurs, który ma wyłonić twórcę nowego, zautomatyzowanego systemu, którego sercem ma być sztuczna inteligencja.

Jak wyjaśniają senaccy urzędnicy na oficjalnej stronie chodzi o rozwiązanie, "które pozwoli opracować przystępniejszą formę transmisji wideo z obrad oraz ułatwi odnajdywanie nagrań poszczególnych wypowiedzi senatorów.". Dzięki temu ma powstać baza, która pozwoli na błyskawiczne przeskakiwanie pomiędzy stenopisem a plikami wideo. 

Sztuczna inteligencja ma mieć też zdolność, która umożliwi dodanie linków z nagraniem do konkretnego miejsca w stenopisie, co sprawi, że opisy mówców w transmisji wideo byłyby trafniejsze i szybciej dostępne. W tej chwili nagrania publikowane przez Senat liczą sobie kilkadziesiąt minut, a odnalezienie konkretnej wypowiedzi, umieszczonej w stenopisie, wymaga ręcznego przewijania filmu. 

Automatyzacja procesów wewnętrznych ułatwi i przyspieszy pracę nad transmisją i dokumentacją z posiedzeń Senatu i komisji senackich. Wprowadzenie sztucznej inteligencji [...] pomoże wyeliminować tzw. błędy ludzkie. Rozpoznawanie mówców na podstawie głosu i obrazu oraz narzędzi do wspomagania transkrypcji wypowiedzi wprowadzi szereg usprawnień.

- czytamy w oficjalnym dokumencie

Czytaj też: Inteligentne okulary Google Glass powróciły. Druga generacja wkracza po 7 latach od pierwowzoru

Urzędnicy wyjaśniają, że interfejs systemu  powinien umożliwiać korektę w zakresie identyfikacji mówcy, czasu rozpoczęcia wypowiedzi, zaznaczania niewyłapanej przez system wypowiedzi. Aplikacja musi też bardzo sprawnie rozpoznawać mowę - zgodność transkrypcji musi być nie mniejsza niż 90 proc. Rozpoznawanie mowy (ang. speech recognition, speech-to-text – STT) to proces przekształcania wypowiedzianych słów i zdań na tekst, który można zapisać w postaci cyfrowej.