Sztuczna inteligencja właśnie nauczyła się naśladować głos dowolnej osoby. Potrzebuje trzech sekund

Sztuczna inteligencja w trzy sekundy podszywa się pod głos dowolnej osoby

Jak czytamy w badaniu, które pojawiło się w bazie prac arXiv, naukowcy do wytrenowania sztucznej inteligencji potrzebowali bagatela 60 tys. godzin nagrań z ludzką mową w języku angielskim. To setki razy więcej, niż wykorzystuje się przy podobnych projektach syntezy mowy.

W ten sposób udało się stworzyć model, który nie tylko generuje ludzką mowę, ale potrafi dokładnie odtworzyć cudzą barwę głosu, a nawet odpowiednią intonację wypowiedzi oraz całkiem nieźle naśladować emocje mówiącego.

Naukowcy zapewniają, że udało im się w ten sposób stworzyć system generujący najbardziej naturalną i podobną do głosu lektora mowę. Dodają, że do wygenerowania przez sztuczną inteligencję "udawanej" wypowiedzi wystarczy analiza próbki głosu dowolnej osoby o długości zaledwie trzech sekund.

Przykłady nagrań, które zaprezentowano na GitHub robią ogromne wrażenie. VALL-E nie zawsze radzi sobie perfekcyjnie, ale faktycznie w sposób w miarę naturalny i dość dokładny naśladuje kilku przykładowych lektorów. Podobnie dobrze naśladuje mowę męską, jak i żeńską, choć część sztucznych wypowiedzi wydaje się nieco "wyprana" z emocji. Wciąż jednak rozpoznanie, który z głosów należy do żywego lektora nie jest wcale takie proste.

Do czego można wykorzystać VALL-E? Nie tylko w pozytywnym celu

Nietrudno wyobrazić sobie, że po dopracowaniu dla VALL-E znalazłoby się wiele praktycznych zastosowań. Mógłby okazać się syntezatorem mowy udającym głos osób, które straciły możliwość mówienia lub udawać prawdziwego lektora w filmach czy audiobookach.

Microsoft nie udostępnia jednak systemu publicznie m.in. z powodu zagrożenia, jakie niesie wykorzystanie go w nieuprawniony sposób. VALL-E może bowiem stworzyć fałszywą wypowiedź znanej osoby (np. polityka) lub udawać głos osoby, którą zna ofiara w oszustwach (np. wyłudzanie pieniędzy).