Z komputerem pogadaj po ludzku

Czas się uwolnić spod jarzma komputerów! Koniec niewygody i naginania się do ich warunków! Nowe sposoby porozumiewania się z maszynami wreszcie stają się wygodne dla nas, ludzi

Przez miliony lat ewolucji raz po raz udowadnialiśmy, że jesteśmy niezwykle elastycznym gatunkiem. Tak było, gdy wysforowaliśmy się przed inne konkurencyjne hominidy, tak działo się, kiedy zdołaliśmy opuścić ciepłą Afrykę i skolonizować całą Ziemię.

Jednak najnowszym, bo mającym zaledwie kilkadziesiąt lat dowodem naszej ogromnej zdolności dostosowywania się jest fakt, że udało nam się dogadać z maszynami, które sami stworzyliśmy. Bo, jakkolwiek dziwnie by to nie brzmiało, przez blisko 70 lat istnienia komputerów zwykle to one dyktowały nam warunki, a my dopasowywaliśmy się do wydumanych i dalekich od intuicji sposobów porozumiewania się.

W tym miejscu można wzruszyć ramionami i rzucić okiem w stronę biurka, gdzie leżą myszka i klawiatura. Bo cóż w końcu prostszego niż te dwa podstawowe narzędzia komunikacji maszyny z człowiekiem? No właśnie - oto dowód na to, jak wiele zwykłego zdrowego rozsądku musieliśmy poświęcić, by komputery zechciały z nami rozmawiać.

Słowo przeciwko myszy

Dobre kilka milionów lat zajęło nam wypracowanie świetnego, niemal niezawodnego sposobu porozumiewania się - mowy. Doskonale uzupełnia ją wzrok, który dostarcza mózgowi ogrom uzupełniających informacji pozawerbalnych. Do tego mamy jeszcze dotyk i węch, które również pełnią niebagatelną funkcję w komunikacji z innymi homo sapiens. Właśnie umiejętne korzystanie z tego rozbudowanego systemu przekazywania informacji sprawiło, że staliśmy się dominującym (na dobre i na złe) ziemskim gatunkiem.

Jednak gdzieś pod koniec XX wieku pojawił się zupełnie nowy sposób porozumiewania się. Nagle zajęliśmy się czymś, w czym dotychczasowe doświadczenia okazały się kompletnie bezużyteczne - używaniem komputerów. Jeśli zdołamy się nieco zdystansować do najnowszej historii techniki, dostrzeżemy, w jak dziwaczną sytuację sami daliśmy się wplątać.

Zacznijmy od dużego kroku wstecz.

Sposób komunikowania się człowieka z maszyną sięga początków ludzkiej cywilizacji - czasu, gdy zaczęliśmy tworzyć pierwsze złożone narzędzia. Już zwykły żuraw do studni wymaga znajomości jego interfejsu. Dla nieobeznanego z maszyną użytkownika jest ona bezużyteczna, a przynajmniej mocno niejasna. W końcu długi podparty na środku kij z wiszącym na jednym końcu pojemnikiem nie jest czymś, czego zastosowanie jest od pierwszego rzutu oka oczywiste. Na szczęście krzywa uczenia się obsługi tego sprzętu jest bardzo stroma - potrzeba niewiele czasu, by opanować interfejs żurawia, a podczas korzystania z narzędzia nie napotkamy wielu przeszkód. Oczywiście można dostać drągiem w głowę, można urwać wiadro lub samemu wpaść do studni, ale to już właściwie wszystkie zagrożenia.

Epoka specjalistów

Jednak postęp technologiczny nieuchronnie prowadził do komplikowania się sposobów obsługi maszyn. Kołowrotek, krosno czy maszyna drukarska wymagają już więcej wiedzy i kryją liczne niespodzianki, a krzywa uczenia się ich obsługi jest znacznie bardziej płaska. XIX wiek ze swoją rewolucją przemysłową to już prawdziwy rozkwit znaczenia interfejsu człowiek - maszyna. Przyciski, dźwignie i zegary wymagają wysokich kwalifikacji, a błędy nie są łatwo wybaczane. Twórcy sprzętu mają oczywiście na uwadze osoby, które będą z niego korzystały, ale ich wygoda jeszcze przez wiele lat nie będzie priorytetem.

Oczywiście stopniowo opanowaliśmy nawet najmniej przyjazne interfejsy i przyzwyczailiśmy się do obsługi coraz to nowych, ale wciąż pozostawało to domeną specjalistów. Krzywa uczenia się jest tak płaska, że większość osób nigdy nie opanowuje obsługi ogromnej części z otaczającego ich sprzętu - w pierwszej połowie XX wieku mężczyźni wciąż nie potrafią włączyć prania, kobiety nie garną się do prowadzenia samochodów, a magnetofon szpulowy wszystkich przeraża obłędnie złożonym systemem prowadzenia taśmy. Słowem - to epoka specjalistów.

Maszyna dla mas

I właśnie w tym czasie, gdzieś na przełomie lat 60. i 70., pojawia się koncepcja komputera osobistego. Początkowo wszystko jest jak dawniej - bo komputerami interesują się wyłącznie naukowcy oraz niewielka liczba hobbystów. Ale wszystko zmienia się w połowie lat 70. Ceny układów scalonych spadają na tyle, że przynajmniej część zwykłych ludzi może myśleć o zakupie komputera. Może, ale jeszcze nie myśli. Problemem jest bowiem właśnie interfejs - sposób porozumiewania się człowieka z maszyną. Można długo rozwodzić się na temat jego niedoskonałości i braków, ale zamiast tego lepiej spojrzeć na komputer, od którego swoją karierę zaczął Bill Gates.

Altair 8800 - uznawany dziś za pierwszy komputer osobisty - był po prostu przerażający. Seria przełączników i diod świecących wyglądała tak wrogo, że trudno dziś uwierzyć, że producent tego paskudztwa, firma o czarującej nazwie Micro Instrumentation and Telemetry Systems, zdołał sprzedać niewiarygodną liczbę 10 tys. egzemplarzy.

Jednak już wkrótce sprawy zaczęły się szybko zmieniać. Steve Wozniak wraz z kolegą Steve'em Jobsem zbudowali Apple I. Był kwiecień 1976 roku, gdy maszyna weszła do sprzedaży w łatwej do zapamiętania cenie 666,66 dolara. Co prawda za te pieniądze dostawało się tylko zmontowaną płytę, do której trzeba było dokupić obudowę, zasilacz, monitor i klawiaturę, ale moment był przełomowy: Apple I był pierwszym powszechnie dostępnym komputerem, który z człowiekiem porozumiewał się w przyzwoity sposób - właśnie przez klawiaturę i monitor.

To była bardzo ważna chwila i prawdziwy przełom w ludzko-komputerowej komunikacji. Oto bowiem po raz pierwszy maszyna wyciągała (mocno jeszcze koślawą) rękę do zwykłego człowieka. Nie straszyła go jakimiś paskudnymi diodami i prztyczkami, ale dawała coś, co użytkownik dobrze już znał. W końcu klawiatura to taka maszyna do pisania (a ta obchodziła właśnie stulecie istnienia), a monitor to nic innego jak przeżywający swoje najlepsze czasy telewizor.

Ale to był dopiero początek. Wkrótce potem, w 1977 roku, Steve'owie Wozniak i Jobs zbudowali Apple II, do którego nic nie trzeba było dokupywać - klawiatura i ekran były w zestawie. Maszyna była jak na owe czasy bardzo przyjazna dla użytkownika, choć nadal umiała wyświetlać na ekranie tylko wielkie litery.

Największa kradzież w historii komputerów

I wtedy właśnie nastąpiło zdarzenie, którego efekty wszyscy do dziś odczuwamy. Oto w prężnie rozwijającą się firmę Apple zainwestować chce milion dolarów stary rynkowy wyjadacz - firma Xerox. Jednak Steve Jobs zamiast skakać z radości, stawia twarde warunki: owszem, zgodzi się na taką inwestycję, ale pod pewnym warunkiem. Oto Xerox ma dać jemu i jego ludziom dostęp do szczególnego miejsca - Xerox PARC.

Courtesy of Xerox Corporation

Courtesy of Xerox Corporation

Pod tą nazwą kryje się ośrodek badawczy otwarty w 1970 roku. Od początku miał się on zajmować rozwijaniem koncepcji, które nie leżały w głównym nurcie zainteresowań wynalazców kserokopiarki. Zbudowano go więc w Palo Alto w Kalifornii, dobre 5 tys. km od głównej siedziby firmy w Connecticut. Miało to swoje zalety, ale też i wady. Zaletą był fakt, że odlegli szefowie, którym horyzonty przysłaniała kopiarka, nie przeszkadzali w tworzeniu wielkich wynalazków. Wada wynikała z tego, że trudno docenić coś, co zna się pobieżnie. A odległość sprawiała, że wielcy Xeroxa mieli dość niewielkie pojęcie o tym, co powstaje w PARC.

A tworzono tam rzeczy wielkie. Przykłady? Drukarka laserowa. Lokalna sieć komputerowa. Okna. Ikony. Mysz komputerowa. I to właśnie te trzy ostatnie wynalazki zainteresowały Jobsa. Wiedział od swoich ludzi co nieco o pracach w Xerox PARC i uparł się, że musi je obejrzeć na własne oczy. Odlegli szefowie Xeroxa ochoczo się zgodzili i tylko lokalna menedżerka Adele Goldberg zrozumiała grozę sytuacji. Oto bowiem bystry facet z młodej firmy komputerowej ma wejść w samo serce Xerox PARC i oglądać wszystko to, nad czym z taki trudem od lat pracowano. Próbowała więc ukryć przed Jobsem kluczowe wynalazki, jednak odlegli szefowie byli bezwzględni - pan Jobs ma zobaczyć wszystko, co sobie zażyczy.

Intuicja nie zawiodła Adele Goldberg. Jobs wraz ze swoimi specjalistami oniemieli na widok tego, co nazywa się graficznym interfejsem użytkownika - okien i umieszczonych w nich ikon oraz folderów kryjących te i inne elementy. A gdy osłupienie minęło, ruszyli do pracy. Po latach mówiło się o tym jako o największej kradzieży w historii komputerów - Jobs rzucił wszystkie siły, by skopiować funkcje systemu podpatrzonego u Xeroxa. Czy mu się to udało? A czy widzieliście może świetny system operacyjny marki Xerox? Lub może myszkę tej firmy? Ze wspomnianych wcześniej wynalazków spece od kserokopiarek rozwinęli, co nie powinno dziwić, drukarkę laserową. Resztę przejął Jobs, a od niego Bill Gates.

Kilka lat później, w 1984 roku, światło dzienne ujrzał komputer Macintosh z system operacyjnym nazwanym po prostu "System 1.0". Były w nim okna, ikony i foldery. Można je było przeciągać z miejsca na miejsce, okna potrafiły przykrywać się wzajemnie. Wszystko było proste, intuicyjne i eleganckie, a na dodatek sterowane wygodną i niezawodną myszką.

To dopiero początek

Po raz pierwszy komputery przestały straszyć rzędami świecących liter i stały się po prostu przyjazne. Tak przyjazne, że koncepcja sprzed 28 lat do dziś niemal się nie zmieniła. Systemy nabrały kolorów, zyskały piękniejsze grafiki i wielobarwne tapety, oszałamiają animacjami i dźwiękami, ale wciąż przeciągamy ikony i okna, pakując wszystko w foldery. To się nazywa zapanować nad rynkiem!

Czy to już koniec opowieści o porozumieniu człowieka i maszyny? Czy stworzyliśmy system idealny i możemy go już tylko udoskonalać? Jeśli taka myśl przeszła ludziom przez głowę, to najlepszy dowód na to, że znaleźliśmy się w wielkim impasie. Interfejs, w którym patrzymy na ekran, jednocześnie jeżdżąc po stole pudełkiem na sznurku oraz celujemy palcem w jeden ze stu klawiszy, to naprawdę absurdalny pomysł. Jak absurdalny, najłatwiej przekonać się, obserwując ludzi, którzy korzystają z niego po raz pierwszy.

Pod koniec lat 90. miałem okazję prowadzić kurs komputerowy "Podstawy Windows". Jedną z grup, które do mnie trafiły, byli programiści Fortranu - jednego z najstarszych języków komputerowych wywodzącego się jeszcze z lat 50. Byli to pracownicy wielkiego banku, którzy stworzyli podstawy jego systemy informatycznego. Od lat zajmowali się komputerami, jednak zaczynali pracę, posługując się kartami perforowanymi, by z czasem przesiąść się przed ekran z klawiaturą. Myszy czy graficznego interfejsu użytkownika nigdy nie potrzebowali. Gdy ich pracodawca postanowił przeszkolić ich w posługiwaniu się nowoczesnym systemem operacyjnym, wyzwanie okazało się ogromne. Pierwszy dzień spędziliśmy na powolnej nauce koordynacji ręka - oko i grze w Sapera. Problemu ani przez moment nie sprawiały zasady gry, natomiast wcelowanie kursorem w malutkie kwadraciki przychodziło z wielkim trudem. Później nadszedł czas zapoznawania się z koncepcją ikon i systemem "przeciągnij-i-upuść". Kurs trwał pięć dni, codziennie spędzaliśmy ze sobą kilka godzin. Całość zakończyła się sukcesem, ale od tego czasu nigdy już nie myślałem, że okna i ikony to oczywiste i intuicyjne rozwiązanie.

W tym przekonaniu upewniły mnie prowadzone od kilku lat obserwacje moich dzieci. Urodziły się one w tym czasie, w którym rozpoczął się boom na interfejsy dotykowe. Zaczęło się od iPhone'a (tak, wiem, że wcześniej były smartfony z rysikiem, ale to było taaaakie niewygodne!) i przetoczyło przez cały rynek, zmieniając go całkowicie. A tymczasem moje dzieci nieświadome toczącej się wokół nich rewolucji technologicznej po prostu zaczęły używać iPada. Przykład mojego syna pokazał, że rok i trzy miesiące to wiek zupełnie wystarczający, by podkraść ojcu telefon i zaszywszy się w kącie pokoju, błyskawicznie włączyć go, odblokować ekran i zacząć przeglądać programy.

Co kogo mogą obchodzić przejścia moich dzieci? A no to, że trudno o bardziej obrazowe pokazanie tego, jak wiele możemy jeszcze zdziałać w kwestii naprawdę intuicyjnych systemów operacyjnych. O ile wygodniejsze i bardziej oczywiste jest przesunięcie palcem po ekranie od mozolnego manewrowania myszką po stole! Oczywiście nie przypadkiem zwykłe monitory komputerowe nie są dotykowe - po prostu operowanie wyciągniętą przed siebie ręką po ekranie staje się po minucie okropnie męczące i niewygodne. W dodatku współczesne systemy, takie jak Windows 7 czy poprzednia wersja MacOS X, są nieprzystosowane do obsługi palcem - ikony są za małe, paluch zasłania to, co robimy.

fot. apple.com

Jednak najnowsze systemy zmieniają i to. Pokazany ledwie kilka tygodniu temu Windows 8, który będzie miał premierę zapewne jesienią, ma interfejs, który z powodzeniem działać będzie na tabletach z dotykowymi ekranami. Powiększono kluczowe obiekty, pogrupowano je w duże i wyraźne "kafle" - wszystko, by dać człowiekowi możliwość posługiwania się tym, co dla niego najwygodniejsze i najbardziej naturalne - własnymi palcami.

Słowo ma moc

Ale to dopiero początek wielkich zmian. Ogromny krok wykonał w ciągu ostatnich lat Google. Jego technologia rozpoznawania głosu wbudowana została do wszystkich telefonów z nowszymi wersjami systemu Android. Nie narzuca się, choć jej obecność jest wszędzie zaznaczona małą ikoną mikrofonu. Wystarczy stuknąć w nią palcem, by telefon zaczął nasłuchiwać. Tu czas użyć kolejnego z naszych naturalnych interfejsów - mowy. Wypowiadane słowa są natychmiast, jeszcze zanim skończymy mówić, przesyłane przez internet do potężnych centrów obliczeniowych Google'a rozsianych po całym świecie. Tam maszyny o mocy tysiące razy przekraczającej możliwości naszego telefonu w ciągu ułamków sekund rozpoznają nasze słowa i odsyłają je z powrotem do komórki. W ciągu dwóch-trzech sekund telefon dostaje informację o tym, co powiedzieliśmy, i jest gotowy do dalszych działań. W ten sposób możemy dyktować SMS-y czy maile, zadawać pytania wyszukiwarce Google czy prosić o pomoc w znalezieniu drogi.

Mike Cohen, jeden z czołowych inżynierów Google'a, który od 26 lat zajmuje się zagadnieniami rozpoznawania mowy, opowiadał mi, jak jego system radzi sobie z rozmaitymi akcentami, wadami wymowy, bełkotaniem i innymi trudnymi dla maszyn wyzwaniami. Jednym z kluczowych elementów jest uczenie się przez maszynę. W gigantycznych zasobach Google'a zapamiętane zostaje każde pytanie, jakie użytkownik zadał, wraz z jego reakcją na wyniki rozpoznawania mowy. I tak wyobraźmy sobie, że rzucimy do telefonu niedbale "ile waży wieloryb?", a przez pozjadane końcówki maszyna przetłumaczy to jako "ile warzyw wieloryb?". Zirytowani poprawimy już na klawiaturze telefonu nasze pytanie i puścimy je do wyszukiwarki. W tym momencie Google nauczył się, że użytkownik tego telefonu przebywający w Polsce, w Warszawie "waży" wypowiada podobnie do "warzyw". A to już ogrom cennych informacji. Po pierwsze, maszyna wie, że zdarza mi się zjadać końcówki. Po drugie, wnioskuje, że ta cecha przydarza się Polakom. Po trzecie, podejrzewa, że może być charakterystyczna akurat dla regionu, w którym mieszkam. Czy to wszystko prawda? Niekoniecznie, ale mając tysiące i miliony takich próbek, można wyciągać statystycznie znaczące wnioski. A te sprawiają, że system zyskuje na użyteczności. Stał się już na tyle sprawny, że Google wbudował go w swoją przeglądarkę internetową Chrome. W nowszych systemach operacyjnych działających na komputerach wyposażonych w mikrofon zauważymy, że w polu do wpisywania tekstu znajduje się mała ikonka mikrofonu. Kliknięcie w nią uruchamia system rozpoznawania mowy działający dokładnie tak samo jak ten z telefonów.

Zapytałem Mike'a Cohena, jak widzi przyszłość interfejsów głosowych. "Z jednej strony to genialnie prosty i intuicyjny system, z drugiej jednak trzeba zdawać sobie sprawę z jego ograniczeń. I to nie technicznych, ale kulturowych. Nie wyobrażam sobie, by ludzie, siedząc w biurze przy komputerze, głośno zlecali mu wyszukiwanie informacji poufnych czy intymnych". Faktycznie - wypowiedziane głośno i wyraźnie "ginekolog, warszawa, pilnie" wzbudziłoby pewne zainteresowanie.

Jest jednak mnóstwo miejsc, gdzie gadanie do maszyny jest wręcz wymarzone. Choćby winda - zamiast przepychać się do przycisku, wystarczy powiedzieć "czwarte piętro". Podobnie w samochodzie można dyktować SMS-a czy zlecać nawigacji znalezienie drogi (takie systemy są już powszechnie dostępne).

Innym przykładem jest interfejs wykorzystujący gesty. Ten kierunek już się zaczął intensywnie rozwijać i znowu na czele znalazły się komórki. W Androidzie możliwe jest uruchomienie funkcji, która wycisza dzwonek telefonu, gdy podniesiemy dzwoniący aparat ze stołu i odłożymy go, odwracając ekranem w dół. To bardzo oczywisty i bardzo wygodny gest.

Kolejne już wdrażane pomysły polegają na wykorzystaniu aparatu wbudowanego w telefon do śledzenia dłoni użytkownika. Na razie technologia działa niezbyt sprawnie, ale kwestią miesięcy jest jej udoskonalenie. Można się więc spodziewać rozłączenia niechcianego połączenia niedbałym machnięciem dłoni czy przejścia do ekranu domowego gestem odgarnięcia szpargałów. Jeszcze dalej idzie Microsoft, zapowiadając sterowanie Windows 8 za pomocą Kinecta - śledzącego ruchy ciała kontrolera do gier.

Jeśli więc ktoś nie zauważył, powiedzmy to jasno - właśnie na naszych oczach odbywa się wielka zmiana. Wreszcie komputery przestają dyktować nam warunki i do głosu dochodzi zdrowy rozsądek i naturalne odruchy. Przyszłość zapowiada się nader przyjemnie.