Z wizytą w Centrum Rozwoju Technologii Amazon w Gdańsku. Tu rozwija się Alexa

Mieliśmy okazję przyjrzeć się bliżej pracy deweloperów gdańskiego Centrum Rozwoju Technologii Amazon. Jednym z owoców ciężkiej pracy ekipy z wybrzeża jest Alexa, cyfrowa asystentka głosowa, którą można usłyszeć między innymi w urządzeniach Amazon Echo, Amazon Echo Tap oraz Amazon Echo Dot.

Biuro Centrum Rozwoju Technologii Amazon mieści się w ogromnym biurowcu na gdańskiej Oliwie. Pracuje w nim kilkaset osób, w tym potężna ekipa programistów odpowiedzialna za kilka kluczowych usług firmy. Najważniejsza z nich, będąca zarazem głównym powodem naszej wizyty to Alexa - bliska koleżanka Siri, Cortany oraz Asystenta Google - czyli cyfrowa asystentka zintegrowana z usługami chmurowymi Amazonu (Amazon Web Services).

Centrum Rozwoju Technologii Amazon w GdańskuCentrum Rozwoju Technologii Amazon w Gdańsku fot. Sebastian Górski

Krótka wycieczka po biurze i pierwsza rzecz, która rzuca się w oczy to swoisty hołd dla twórców polskiego syntezatora mowy IVONA, uważanego swego czasu za najlepszy na świecie. Nazwy poszczególnych pomieszczeń zaczerpnięto od imion różnych wersji językowych głosów syntezatora. Warto przypomnieć, że ponad trzy lata temu Amazon przejął firmę odpowiedzialną za stworzenie technologii (IVONA Software) i to w głównej mierze jej Alexa zawdzięcza dziś swoją umiejętność przekładania tekstu na mowę. Ekipa IVONA Software stanowi integralną część ekipy gdańskiego R&D Amazonu.

Nazwy pomieszczeń w Centrum Rozwoju Technologii Amazon w GdańskuNazwy pomieszczeń w Centrum Rozwoju Technologii Amazon w Gdańsku fot. Sebastian Górski

Specjalistów podzielono na kilka zespołów odpowiedzialnych między innymi za utrzymanie i rozwój usługi asystenta głosowego Alexa, technologii przekładania tekstu na mowę oraz przetwarzanie języka naturalnego (NLU - Natural Language Learning). Obecnie Alexa rozumie komendy i potrafi porozumiewać się z użytkownikiem tylko w dwóch językach: po angielsku (łącznie z brytyjskim akcentem) oraz od niedawna po niemiecku. Dużą uwagę zwraca się na tembr głosu. Okazuje się, że w różnych częściach świata poszczególne atrybuty ludzkiego głosu postrzegane są nieco inaczej.

Dział Centrum Rozwoju Technologii Amazon odpowiedzialny za NLU - rozumienie języka naturalnegoDział Centrum Rozwoju Technologii Amazon odpowiedzialny za NLU - rozumienie języka naturalnego fot. Sebastian Górski

Trudno powiedzieć, kiedy asystentka będzie w stanie zrozumieć nasz rodzimy język, poniekąd mocno skomplikowany na tle innych. Największe wyzwanie to właśnie proces identyfikacji i przetwarzania polskich komend głosowych. Jeśli to zagadnienie zostanie przez inżynierów Amazona opanowane, reszta procesu pozostanie czystą formalnością.

Plakaty inspirujące pracowników Centrum Rozwoju Technologii AmazonPlakaty inspirujące pracowników Centrum Rozwoju Technologii Amazon fot. Sebastian Górski

Centrum Rozwoju Technologii Amazon mieszczące się w Gdańsku ma również dwa pomieszczenia do nagrań audio. Wytłumione, wyposażone w odpowiedni sprzęt, służą do rejestracji nowych głosów lektorskich pod czujnym okiem realizatora kontrolującego proces w reżyserce. Nagrywanie kompletnego głosu dla asystenta Alexa może zająć nawet kilka tygodni i nie jest zadaniem prostym. Jak mieliśmy okazję przekonać się na własnej skórze, lektor ma przed sobą ogromne wyzwanie - dostaje do przeczytania skomplikowane zdania, często wyrwane z kontekstu.

Studio nagraniowe w Centrum Rozwoju Technologii AmazonStudio nagraniowe w Centrum Rozwoju Technologii Amazon fot. Sebastian Górski

Jak się potem okazuje, takie rozwiązanie nie jest pozbawione sensu. Alexa wybiera sobie z nich poszczególne sylaby lub głoski budując z nich kompletne sentencje, które wypowiada.

System dzielenia wypowiadanych sentencjiSystem dzielenia wypowiadanych sentencji fot. Sebastian Górski

Jak stale podkreślają specjaliści z Amazona, potencjał asystentki głosowej Alexa opiera się na rozbudowanych usługach zaszytych w jednej z największych na świecie usług chmurowych, czyli Amazon Web Services. To głównie tam (a nie bezpośrednio w urządzeniu) odbywa się cała magia. O ogromnym potencjale technologii może świadczyć fakt, że na odpowiedź do zadanego przez nas pytania często nie czekamy dłużej niż kilka sekund.

Schemat działania systemów rozpoznawania mowySchemat działania systemów rozpoznawania mowy fot. Sebastian Górski

Co już teraz potrafi Alexa w zestawieniu z urządzeniami Amazon? Posługując się językiem angielskim możemy między innymi zamówić Ubera, odtwarzać muzykę ze Spotify, sterować systemem inteligentnego domu (przykładowo oświetleniem), sprawdzać zadania z kalendarza czy pogodę w naszej lokalizacji. Oczywiście Alexa odpowiada również na szereg typowo encyklopedycznych pytań i jest nawet w stanie dostarczać przepisy kulinarne. Asortyment funkcji (tzw. skills) stale się poszerza, bowiem Amazon stosuje tutaj otwartą politykę kodu, umożliwiając deweloperom oraz producentom urządzeń instalowanie w nich cyfrowej asystentki.

Zakres produktów i aplikacji dla Aleksy stale się rozszerzaZakres produktów i aplikacji dla Aleksy stale się rozszerza fot. Sebastian Górski

Reasumując, gdańskie Centrum Rozwoju Technologii Amazon to miejsce o ogromnym potencjale. W ramach organizowanych przez biuro inicjatyw warto zwrócić uwagę na coroczną imprezę Innovation@Amazon, spotkanie prezentujące najnowsze osiągnięcia pracujących w nim specjalistów. Dzięki uprzejmości Amazon już niedługo sami będziemy mieli okazję sprawdzić co potrafi Alexa i podzielić się tym z wami.