Sztuczna inteligencja właśnie nauczyła się naśladować głos dowolnej osoby. Potrzebuje trzech sekund

Bartłomiej Pawlak
Opracowany przez naukowców system VALL-E jest w stanie podszyć się pod głos dowolnej osoby i robi to z niewiarygodną dokładnością. W pierwszej chwili próbki głosów trudno rozróżnić. A do naśladowania żywej osoby sztuczna inteligencja potrzebuje próbki głosu o długości zaledwie trzech sekund.
Zobacz wideo Znaleźliście pod choinką smartfona? Oto najlepsze aplikacje na początek [TOPtech]

Naukowcy z Uniwersytet Cornella opracowali - na zlecenie firmy Microsoft - model sztucznej inteligencji, który jest w stanie niemal perfekcyjnie podszywać się pod głos żywej osoby. Projekt nazwany roboczo VALL-E i wciąż jest na etapie prac, ale jego możliwości już robią niesamowite wrażenie.

Sztuczna inteligencja w trzy sekundy podszywa się pod głos dowolnej osoby

Jak czytamy w badaniu, które pojawiło się w bazie prac arXiv, naukowcy do wytrenowania sztucznej inteligencji potrzebowali bagatela 60 tys. godzin nagrań z ludzką mową w języku angielskim. To setki razy więcej, niż wykorzystuje się przy podobnych projektach syntezy mowy. 

W ten sposób udało się stworzyć model, który nie tylko generuje ludzką mowę, ale potrafi dokładnie odtworzyć cudzą barwę głosu, a nawet odpowiednią intonację wypowiedzi oraz całkiem nieźle naśladować emocje mówiącego.

Naukowcy zapewniają, że udało im się w ten sposób stworzyć system generujący najbardziej naturalną i podobną do głosu lektora mowę. Dodają, że do wygenerowania przez sztuczną inteligencję "udawanej" wypowiedzi wystarczy analiza próbki głosu dowolnej osoby o długości zaledwie trzech sekund.

Przykłady nagrań, które zaprezentowano na GitHub robią ogromne wrażenie. VALL-E nie zawsze radzi sobie perfekcyjnie, ale faktycznie w sposób w miarę naturalny i dość dokładny naśladuje kilku przykładowych lektorów. Podobnie dobrze naśladuje mowę męską, jak i żeńską, choć część sztucznych wypowiedzi wydaje się nieco "wyprana" z emocji. Wciąż jednak rozpoznanie, który z głosów należy do żywego lektora nie jest wcale takie proste.

Do czego można wykorzystać VALL-E? Nie tylko w pozytywnym celu

Nietrudno wyobrazić sobie, że po dopracowaniu dla VALL-E znalazłoby się wiele praktycznych zastosowań. Mógłby okazać się syntezatorem mowy udającym głos osób, które straciły możliwość mówienia lub udawać prawdziwego lektora w filmach czy audiobookach.

Microsoft nie udostępnia jednak systemu publicznie m.in. z powodu zagrożenia, jakie niesie wykorzystanie go w nieuprawniony sposób. VALL-E może bowiem stworzyć fałszywą wypowiedź znanej osoby (np. polityka) lub udawać głos osoby, którą zna ofiara w oszustwach (np. wyłudzanie pieniędzy).

Więcej technologicznych ciekawostek znajdziesz na stronie Gazeta.pl

Więcej o: