Szef Amazona wybrał polską firmę, by konkurować z Apple, Google i Microsoftem. Jak Ivona stała się siostrą Alexy [FORMAT C:]

Robert Kędzierski
Ivona to jedno z najstarszych narzędzi, które pozwala zamieniać tekst na mowę. Stworzona w Polsce technologia ma dziś jednak znacznie poważniejsze zastosowanie. Polska firma stała się częścią Amazona, światowego giganta tworzącego jednego z najważniejszych osobistych, inteligentnych asystentów. Konkuruje w tym zakresie z Google, Apple i Microsoftem. W niedalekiej przyszłości tacy asystenci będą nam towarzyszyć na co dzień.

Pod koniec lat dziewięćdziesiątych dwóch Polaków z Gdyni stwierdziło, że czas, by komputery wreszcie mogły przemówić ludzkim głosem. Naturalnym, ciepłym i kobiecym, a nie blaszanym i mechanicznym.  

Łukasz Osowski i Michał Kaszczuk, którzy poznali się podczas studiów na Politechnice Gdańskiej, postanowili stworzyć własny syntezator mowy. Narzędzie, które sprawi, że komputer wypowie wskazany tekst.

Początkowo przeznaczone dla wąskiego grona użytkowników - firm oraz osób niewidomych. Produkt wydawał się na tyle nowatorski, że podczas pierwszych prób działalności biznesowej mężczyźni byli dopytywani: na co to komu. Na szczęście rosła popularność automatycznych centralek telefonicznych IVR i głos stworzony przez firmę z Pomorza zaczął rozbrzmiewać w wielu telefonicznych słuchawkach.

Stworzenie systemu, który przekształca tekst na głos jest znacznie bardziej skomplikowane, niż mogłoby się to wydawać. Składanie wypowiedzi z całych słów nie ma sensu. Odbiorca natychmiast wyłapie całkowitą sztuczność takiego zabiegu.

System dzielenia wypowiadanych sentencjiSystem dzielenia wypowiadanych sentencji fot. Sebastian Górski

Komputer mówi do nas wykorzystując system, którego stworzenie wymaga dużego nakładu pracy. Najpierw lektor musi przeczytać specjalnie przygotowany tekst. Nie ma on jednak sensu merytorycznego. Zadaniem lektora jest bowiem uchwycenie różnego rodzaju niuansów fonetycznych. Poszczególne głoski, słowa, łączą się ze sobą na dziesiątki sposobów. Każde z nich trzeba przeczytać w naturalny sposób.

Przeczytany tekst rozbija się za pomocą systemu komputerowego na fonemy i difony. Fonem to najmniejsza jednostka mowy, difon to dwugłoska, przejście pomiędzy sąsiadującymi głoskami.

Kiedy chcemy, by komputer wypowiedział żądane słowo czy zdanie  algorytm w odpowiedni sposób dobiera poszczególne difony zebrane w bazie. Dlatego wypowiedziane słowo brzmi naturalnie - niezależnie od tego, czy wpisujemy frazę ze słownika czy tworzymy zupełnie nowe słowo.

Ivona świetnie radziła sobie z tym zadaniem. Między innymi dlatego, że Osowski i Kaszczuk zdecydowali się na nowatorskie, szczególnie jak na tamte czasy, podejście do tematu. Tworząc swoje narzędzie wykorzystywali bowiem sztuczną inteligencję. Stworzyli też wyjątkowe algorytmy, który pozwoliły później błyskawicznie rozwijać produkt.

Sukces odnieśli szybko, co sprawiło, że interes z akademika przeniósł się do biurowca  Pomorskiego Parku Naukowo-Technologicznego w Gdyni.

Sukces pierwszej aplikacji do przetwarzania tekstu na mowę zaowocował stworzeniem najważniejszego narzędzia w historii firmy – syntetyzatora Ivona. Zaprezentowany w roku 2005 szybko przykuł uwagę użytkowników. Był bezkonkurencyjny. Zarówno na naszym rynku – nikt na świecie nie byłby w stanie tak dobrze poradzić sobie z naszą trudną mową ojczystą, jak i na rynku zagranicznym. Ivona pokonała bowiem podobne narzędzia stworzone przez IBM, Microsoft czy Nokię. Nagroda m.in. od National Geographic otworzyła polskiej firmie wiele drzwi.

Lista zastosowań Ivony rosła, podobnie jak jej możliwości. Autorska technologia opracowana przez polską firmę pozwalała szybko rozwijać zupełnie nowe głosy - dziś jest ich kilkadziesiąt -  i obsługiwać nowe języki (obecnie blisko dwadzieścia).   

Aplikacja Ivona stała się jednym z najbardziej rozpoznawalnych narzędzi tego typu na świecie. W 2010 roku wydarzyło się jednak coś przełomowego. Apple zaprezentował asystentkę Siri. Potrafiła nie tylko mówić ludzkim głosem, ale i słuchać.  

Siri stała się katalizatorem dla całej branży. Stało się bowiem jasne, że jeśli smartfon ma być naprawdę "smart" musi umieć komunikować się za pomocą głosu. W 2014 roku Microsoft zaprezentował równie ciekawą Cortanę. Co ciekawe, Cortana tworzona jest w dużej mierze w Gdańsku przez specjalistów z Intela.

Na rynku był jednak jeszcze jeden globalny gracz. Amazon. W styczniu 2013 ogłosił, dość nieoczekiwanie, przejęcie spółki Ivona Software. A w październiku 2014 roku zaprezentował własną asystentkę.  

Alexa narodziła się na bazie polskiej Ivony. Firma została przeniesiona do Gdańska, do Centrum Rozwoju Technologii Amazon.

Nagrywanie kompletnego głosu dla asystenta Alexa może zająć nawet kilka tygodni i nie jest zadaniem prostym. Mieliśmy okazję przekonać się na własnej skórze, że lektor ma przed sobą ogromne wyzwanie - dostaje do przeczytania skomplikowane zdania, często wyrwane z kontekstu.

Jak się potem okazuje, takie rozwiązanie nie jest pozbawione sensu. Alexa wybiera sobie z nich poszczególne sylaby lub głoski budując z nich kompletne sentencje, które wypowiada.

Jak stale podkreślają specjaliści z Amazona, potencjał asystentki głosowej Alexa opiera się na rozbudowanych usługach zaszytych w jednej z największych na świecie usług chmurowych, czyli Amazon Web Services. To głównie tam (a nie bezpośrednio w urządzeniu) odbywa się cała magia. O ogromnym potencjale technologii może świadczyć fakt, że na odpowiedź do zadanego przez nas pytania często nie czekamy dłużej niż kilka sekund.

Dziś branżowi giganci pracują nad nowym typem asystenta osobistego, który będzie w stanie znacznie więcej rozumieć. Pierwszy ważny krok wykonał właśnie Amazon. Stworzona przez niego Alexa nie wymaga bowiem aktywacji komendą. W przypadku asystenta Google nieco nienaturalnie brzmi ciągłe wypowiadanie frazy "OK Google". 

W niedalekiej przyszłości asystent głosowy będzie jednak znacznie bardziej intuicyjny. Do zrozumienia naszych intencji zostaje bowiem zatrudniona sztuczna inteligencja. Przykłady jej realnego działania zaprezentował Google podczas ostatniej konferencji dla programistów.

Google Lens sprawi, że smartfon stanie się bardziej inteligentnyGoogle Lens sprawi, że smartfon stanie się bardziej inteligentny Fot. Google

Zdjęcie, które wykonujemy telefonem jest natychmiast analizowane nie tylko po to, by zidentyfikować obiekt. Asystent jest już w stanie ostrzec użytkownika: uważaj, na to masz alergię. Kiedy wykonujemy zdjęcie routera, smartfon samodzielnie tworzy nowe połączenie rozumiejąc, że cyferki i literki na etykiecie urządzenia to hasło.

W świecie realnym działanie asystenta zostanie jeszcze bardziej rozszerzone, bo będzie on w stanie rozpoznać widziane przez nas miejsca – restauracje, sklepy, hotele. Rolą wirtualnego asystenta takiego jak Alexa będzie zatem nie tylko zbieranie informacji, ale rozumienie ich szerokiego kontekstu.  

Dziś Amazon Echo, urządzenie, które służy do komunikowania się za pomocą m.in. asystentki Alexa, potrafi już bardzo dużo. Na początku roku wprowadzono do niego kilkanaście nowych funkcji - zamawianie pizzy, Ubera, słuchanie audiobooków, czytanie lokalnych wiadomości, prognozy pogody, dyktowanie listy zakupów, zarządzanie elementami inteligentnego domu, rezerwowanie biletów w kinie, wyszukiwanie informacji za pomocą silnika Bing. I to wszystko w dużej części z pomocą Ivony, niepozornej aplikacji, która narodziła się w Polsce pod koniec lat 90.

Komentarze (8)
Szef Amazona wybrał polską firmę, by konkurować z Apple, Google i Microsoftem. Jak Ivona stała się siostrą Alexy [FORMAT C:]
Zaloguj się
  • nit21

    Oceniono 2 razy 0

    Kupiłem kiedyś Expressivo, potem były przez lata bezpłatne aktualizacje polepszające działanie programu i funkcjonalność. Bardzo dobry produkt, nadal go używam. To wiem, że był to świetny zakup, najlepszy mój zakup programu, a firma też jest super. Teraz już inna nazwa firmy, ale pracują tam te same osoby i są nastawione na takie działanie, aby pomoc klientowi. Formatowałem dysk i gdzieś mi zaginęła zapisana kopia programu. Serwer aktualizacji i kontaktu Expressivo już nie działał, to napisałem do Ivony i dali link do najnowszej „mojej” wersji, a mogli wciskać nowy produkt. To często się nie spotyka, takiego życzliwego działania.

  • romek_z_warszawy

    0

    Używam Ivony od lat. Niektóre e-booki przerabiam sobie na audio. Najgorzej wychodzi czytanie liczb i dat.

  • andrew2223

    0

    Alexa również wymaga aktywacji. Każde polecenie lub pytanie trzeba zacząć od słowa Alexa. Z tym że to wcale nie jest wielki problem, raczej ułatwia niż utrudnia sterowanie

  • Oceniono 1 raz -1

    Produkt swietny a swiat fonemow jest fascynujacy. Pierwsza rewolucja komorkowa to przejscie z klawiatury na ekran dotykowy. Druga rewolucja komorkowa to przejscie z zarzadzania kciukowego do gembowego :)
    Brakuje mi w opisie roli p. Krzysztofa Maraska - mentora dwoch opisanych powyzej bohaterow ktory zaszczepil w nich ciekawosc swiata dziwiekow (fonemow)

Aby ocenić zaloguj się lub zarejestrujX