Czekamy na nią od niepamiętnych czasów. No, przynajmniej od starożytności, bo to wtedy powstał mit o Talosie , mechanicznym olbrzymie z brązu, który strzegł brzegów Krety. Nie dość, że potrafił obchodzić brzegi wyspy, to w dodatku odróżniał przyjaciół od wrogów. Dojrzawszy tych drugich, rozgrzewał się do czerwoności, a następnie brał ich w ogniste objęcia, w ten bolesny sposób szybko kończąc inwazję na wyspę.
O ile marsz i palenie wrogów byłyby jeszcze technicznie osiągalne, o tyle rozpoznawanie tego, kogo uściskać, a kogo nie, stanowi problem nawet dla najnowocześniejszych autonomicznych systemów wojskowych, jakie nieustannie testowane są na niebie i ziemi Afganistanu. Podejmowanie takich decyzji wymaga bowiem właśnie tego czegoś, czego od tysiącleci szukamy - sztucznej inteligencji.
Tylko czym ona ma być?
By nie zagłębiać się w kulturowe i religijne niuanse, najprościej można by odpowiedzieć: sztucznym tworem, który będzie myślał w taki sposób, jak czynią to ludzie. Zwykle w mitach i kulturze to człowieczeństwo jest niepełne albo wypaczone - taki jest Golem z Talmudu , robot Maria z "Metropolis" i HAL z "2001: Odysei kosmicznej" . I zwykle rodzi się nagle - Golem dostaje papirus z hebrajskim napisem, a Skynet z "Terminatora" zyskuje świadomość, gdy do sieci zostaje podłączona wystarczająca liczba komputerów. A gdy już powstanie, czym prędzej zaczyna działać.
Wszystkie te wizje stworzone przez kulturę całkowicie zdominowały nasz sposób myślenia o sztucznej inteligencji. Uważamy, że jej nie ma, bo z pewnością zauważylibyśmy jej narodziny. Czy rzeczywiście cokolwiek byśmy dostrzegli? I czy można mówić o "narodzinach" - łatwym do określenia momencie?
Pierwsza kwestia dotyczy podobieństwa ewentualnej sztucznej inteligencji do inteligencji ludzkiej. Zakładamy, że musi być ono bardzo wyraźne. A przecież sposób, w jaki myślimy, został ukształtowany przez ostatnie 10 mln lat ewolucji i bardzo ściśle zależy od warunków, w jakich powstawał nasz gatunek. Wystarczy spojrzeć choćby na wyjątkowy dla człowieka system rozpoznawania twarzy. To, że dostrzegamy je nie tylko u innych ludzi, ale też na nadpalonych tostach, w tłustych plamach na szybach czy w układzie marsjańskich gór, jest efektem działania znajdujących się w płatach skroniowych mózgu grup neuronów, które aktywują się wyłącznie w reakcji na ściśle określone zespoły kształtów - zestaw oczy-nos-usta w różnych wariacjach. Z ewolucyjnego punktu widzenia to zrozumiałe - skuteczne rozpoznanie twarzy jest kluczowe dla życia społecznego.
Oczekiwalibyśmy naturalnie, że sztuczna inteligencja, której pokażemy tost, na którym widzimy zarys twarzy, wykrzyknie: "O, faktycznie! Ale fajne!". Tyle że to głęboko antropocentryczny sposób myślenia - maszyna nie przechodzi procesu ewolucji, jaki mamy za sobą, nie wykształciła więc struktur w ten sposób działających. To samo dotyczy większości ludzkich cech, których trudno nauczyć się na podstawie samej obserwacji naszych zachowań. Jeśli miałaby istnieć hipotetyczna sztuczna inteligencja, która cichcem tworzyłaby się gdzieś u naszego boku, by nagle się ujawnić, to mogłaby ona wytropić, zgromadzić i przeanalizować wszystkie szeroko w mediach omawiane przypadki cudownych wizerunków. Trudno byłoby jej jednak na tej podstawie wytworzyć odpowiednik ludzkiego systemu rozpoznawania twarzy - bardzo trudno stwierdzić, gdzie jest granica podobieństwa, które "odpala" w mózgu odpowiednie neurony, a co już nie wywołuje tej reakcji.
Ta i mnóstwo innych cech ściśle ludzkich sprawiają, że samoczynne narodziny sztucznej inteligencji podobnej do naszej są praktycznie niemożliwe. Nauczenie się całego zespołu cech, które określamy jako człowieczeństwo, byłoby najprawdopodobniej niemożliwe, a rozpoznanie przez prawdziwych ludzi fałszu - banalnie proste. Jesteśmy, co znowu jest efektem ewolucji w stadzie, niezwykle wyczuleni na najsubtelniejsze nawet odchylenia od ludzkiej normy. Rozróżnienie swój - obcy było przez miliony lat sprawą życia lub śmierci. Wychwytujemy najdrobniejsze zmiany w akcencie wypowiadanych słów, delikatne zmiany wywołane środkami odurzającymi czy nawet zmęczeniem. Niełatwo nas oszukać.
Plama na szybie budynku w Tampa na Florydzie uznawana za obraz Matki Boskiej fot: Polihale
Jedyną drogą pozostaje więc "ręczne" zbudowanie sztucznej inteligencji. Sami musimy rozpoznać kluczowe dla człowieczeństwa cechy, po to by precyzyjnie je opisać, a następnie zaprogramować w maszynie. Zajmujemy się tym zresztą od dość dawna, bo od ponad pół wieku. W latach 60. szybki rozwój elektroniki sprawił, że zbudowanie sztucznej inteligencji wydawało się w zasięgu ręki. Duży w tym udział miał zmarły w październiku zeszłego roku profesor John McCarthy, który uważany jest za ojca współczesnej koncepcji sztucznej inteligencji - on sam zresztą wprowadził ten termin do użycia w jednym ze swoich artykułów z 1955 r. Profesor McCarthy założył w Massachusetts Institute of Technology (MIT) Laboratorium Sztucznej Inteligencji i stworzył założenia, które zainspirowały wszystkich tych autorów książek i filmów science fiction, od których przejęliśmy całą koncepcję.
John McCarthy jeszcze w latach 50. przyjął założenie, że "każdy aspekt uczenia się lub każda inna cecha inteligencji mogą zostać tak precyzyjnie opisane, iż maszyna może je symulować". Kolejne sukcesy techniczne lat 60. i 70. tak zdawały się przybliżać tę wizję, że na początku lat 80. poważne fundusze inwestycyjne zaczęły wkładać duże pieniądze w początkujące firmy z Doliny Krzemowej, które obiecywały rychłe powstanie sztucznej inteligencji. Wychodzono bowiem z założenia, że skoro komputery opanowały tak trudne zadania jak złożone obliczenia matematyczne czy gra w szachy, to łatwe będzie nauczenie ich rzeczy prostych - rozpoznawania twarzy, rozumienia języka czy odróżnienia bułki od jeża.
Mijały jednak lata i stopniowo okazywało się, że sprawa jest znacznie trudniejsza, niż dotąd sądzono. Wielkie nadzieje ludzkości i wielkie pieniądze funduszy przepadły, a w połowie lat 80. badacze doszli do bolesnych wniosków, które sformułowano w postaci tak zwanego paradoksu Moraveca: "Stosunkowo łatwo sprawić, żeby komputery przejawiały umiejętności dorosłego człowieka w testach na inteligencję albo w grze w warcaby, ale jest trudne albo wręcz niemożliwe zaprogramowanie im umiejętności rocznego dziecka w percepcji i mobilności".
Dlaczego? Być może jednym z wyjaśnień jest wcześniej wspomniana kwestia ewolucji. Matematyka, szachy i inne dziedziny, w których komputery radzą sobie świetnie, to bardzo świeże wynalazki ludzkości. Posługujemy się nimi od tak niedawna, że nie znalazły one żadnego odzwierciedlenia w strukturach mózgu, nie wytworzyliśmy dziedziczonych mechanizmów do ich "obsługi". Inaczej rzecz ma się z rozpoznawaniem twarzy czy jeży - pierwszą z tych czynności mózg ma tak skutecznie wbudowaną, że kilkudniowe niemowlę chętniej patrzy na ludzką twarz niż na inne struktury o podobnym kształcie, kolorze i rozmiarze. O ewolucyjnym znaczeniu odróżnienia jeża od bułki wspominać nawet nie trzeba.
Profesor John McCarthy null0
Nauczeni bolesnym doświadczeniem badacze porzucili marzenia o mózgu elektronowym i kierowani już zdrowym pragmatyzmem zabrali się do prac idących w innym kierunku - odtwarzania nie struktur budowy mózgu, ale schematów jego pracy. I to zarówno na poziomie podstawowym, jak choćby kwestii dotyczących podstaw uczenia się, jak i na znacznie wyższym - dostosowywania maszyn do tego, by korzystanie z nich było dla ludzi jak najwygodniejsze.
Ta sprawa zaczęła nabierać znaczenia jeszcze pod koniec lat 80. Wcześniej zwykły człowiek miał do czynienia raczej z urządzeniami elektrycznymi niż elektronicznymi. Do systemów o najwyższym poziomie autonomii należały wtedy mechaniczno-elektryczne programatory do pralek. Kto je pamięta, wie, jak delikatne były to urządzenia. Obowiązywał całkowity zakaz kręcenia magicznym kółkiem od pralki w niewłaściwym kierunku, trzeba było znać tajny kod liczb, liter i piktogramów.
Aż tu nagle, niczym w powieści science fiction, zaczęła się inwazja obcych. Do domów zaczęły trafiać komputery osobiste, najpierw 8-bitowe Spectrum, Commodore i Atari, potem stopniowo maszyny IBM PC. To w tym czasie powstało pierwsze pęknięcie społeczne - rodziny podzieliły się na tych, którzy wiedzieli, jak ten sprzęt obsługiwać, oraz na tych, którzy uznali go za zbędny i woleli nie marnować czasu na "nowomodne nowinki".
Potem jednak nadeszły lata 90. i czas, gdy internet za sprawą usługi WWW zaczął nabierać ludzkiego oblicza. Jednocześnie Microsoft do tej pory słynący z topornych interfejsów użytkownika i upiornie nieprzyjaznego DOS-u wypuścił system Windows 95. Można dyskutować nad tym, czy było to dzieło odkrywcze i wiekopomne, ale jedno jest pewne - towarzyszyła mu gigantyczna kampania promocyjna, której koszt ocenia się na 300 mln dol. Jej efektem była nie tylko świetna sprzedaż systemu, ale też dotarcie do ludzi, którzy do tej pory nie myśleli o komputerze jako o czymś, co mogłoby być im jakkolwiek przydatne.
C64 fot. Commodore
W tym samym czasie zaczęły się pojawiać kolejne urządzenia, z którymi kontaktu uniknąć się już nie dało. Połowa lat 90. to wybuch popularności cyfrowej telefonii komórkowej, masowe przechodzenie z kaset na płyty CD oraz stopniowe pojawianie się płyt DVD. Wspólna cecha tych wszystkich urządzeń? Ich obsługa polega na wciskaniu sekwencji klawiszy, za pomocą których poruszamy się po piętrowych, zagnieżdżonych w sobie strukturach. Albo, mówiąc w bardziej zrozumiały sposób, używamy folderów i podfolderów. Proste?
Tak, ale tylko dla tych, którzy wcześniej zdołali liznąć komputerowego świata. Interfejsy odtwarzaczy CD i komórek tworzyli w tamtych czasach ludzie, dla których komputer był naturalnym środowiskiem pracy, rzeczą równie oczywistą jak lodówka i telewizor. Jednocześnie ludzie, którzy z ich projektów korzystali, należeli często do innego świata. Takiego, w którym koncepcja wkładania folderu do folderu, a tego z kolei do innego folderu, wcale nie jest oczywista.
Stopniowo zaczęło się okazywać, że coraz więcej ludzi nie radzi sobie z codziennym sprzętem. Początkowo dotykało to tylko starszego pokolenia, ale stopniowo problem przenosił się też na młodszych. W raporcie "My brain hurts" przygotowanym przez agencję Young & Rubicam pokazano, że grupa tradycyjnie uwielbiająca elektronikę, nastolatki, przestała nadążać za jej rozwojem. Nieliczni potrafili pokazać, do czego służą wszystkie klawisze ich komórki, a jeszcze mniej umiało wymienić bez zaglądania do instrukcji choćby jedną czwartą funkcji odtwarzacza DVD. Większość konsumentów nigdy nie dotyka wszystkich przycisków na pilotach leżących w pokoju, a w pralce korzysta najwyżej z dwóch programów. No cóż - to normalne. Inaczej maszyny by nas zmiażdżyły swoją złożonością.
Na szczęście pojawili się ludzie, którzy zrozumieli, że coś jest nie tak. Przykład - Apple ze swoim iPodem (dla technozagubionych - to ten pierwszy odtwarzacz muzyczny z 2001 r.). Otóż iPod nie miał wielu funkcji konkurencyjnego sprzętu: radia, migających lampek, złożonych equalizerów. Był za to prosty. I zgarnął 80 proc. rynku.
Jednak sama prostota to za mało. Proszę się rozejrzeć, ile urządzeń elektronicznych leży w tej chwili w promieniu dwóch metrów. Kilka? Kilkanaście? Choć mają nam służyć, to w rzeczywistości wiele z nich narzuca się nam na rozmaite sposoby. Dlatego od kilku lat celem dobrych projektantów elektroniki użytkowej jest takie przygotowywanie sprzętu, by albo radził sobie sam, albo komunikował się z nami w możliwie bezinwazyjny sposób.
Wyniki ich pracy stopniowo stają się coraz ciekawsze i coraz bardziej przypominają to, o czym tak marzymy - inteligentne maszyny. To zasługa jednoczesnego wzrostu mocy obliczeniowej układów scalonych, spadku ich ceny i, co równie ważne, rosnącego doświadczenia i znaczenia projektantów interfejsów. Kilka lat temu pojawiły się odkurzacze roboty. Niskie, okrągłe i płaskie krążą po pokoju, samodzielnie wybierając drogę, omijając przeszkody i wsysając śmiecie. Gdy pojawiły się pierwsze takie urządzenia, miały wbudowane stosunkowo proste algorytmy wyznaczające trasę wędrówki po pomieszczeniu - powinny dotrzeć w jak najwięcej miejsc, ale jednocześnie nie mogły na amen utknąć w jakimś kącie. Kręciły się więc po czymś na kształt spirali lub poruszały, chaotycznie odbijając od przeszkód.
Od niedawna jednak odkurzacze zmądrzały. Samsung Navibot ma na wierzchu obudowy kamerę, którą filmuje sufit ponad sobą. Zapamiętuje charakterystyczne punkty, po to by wiedzieć, gdzie w danym momencie się znajduje, i tak zaplanować trasę, by nie odkurzać ponownie raz już wyczyszczonych miejsc oraz wygodnie omijać przeszkody. Potrafi też wykryć miejsca szczególnie zabrudzone i dokładniej je odkurzyć. Łatwo to opisać, trudniej wymyślić, zaprojektować i zaprogramować. Trudno podziwiać odkurzacz, jednak warto zauważyć, że oto maszyna zyskuje odrobinę inteligencji - nie tylko się uczy, ale też podejmuje autonomiczne decyzje na podstawie zdobytej wiedzy.
Kolejny przykład - aparaty fotograficzne. Te, które tak pogardliwie nazywamy "małpami". Co prawda do małpiej inteligencji bardzo im jeszcze daleko, ale w ciągu ostatnich kilku lat nauczyły się bardzo wiele. Na przykład rozpoznawania tego, co widzą. Na początek - twarzy. Chodziło po prostu o to, by system wiedział, na co wyostrzyć obraz, a ludzka twarz jest zwykle najważniejszym elementem na zdjęciu. Zmierzono więc tysiące twarzy i opracowano algorytm, który wykrywa oczy, nos i usta - zestawy punktów i linii ułożone w charakterystyczny wzór o ściśle określonych proporcjach.
Jak to działa? Zaskakująco dobrze, choć dziwnie. Nawet najlepsze algorytmy opracowane przez Nikona, Canona czy Panasonica radzą sobie dobrze, gdy twarz jest dobrze i równomiernie oświetlona, głowa nie jest przekrzywiona i nie przeszkadzają dodatkowe "zakłócenia" w postaci okularów czy nietypowego zarostu. Z drugiej strony procesory obrazu cierpią na własną odmianę "widzenia cudów". Bardzo często wykrywają twarz w plątaninie materiału czy gałęziach w tle. Co ciekawe, nawet gdy oznaczą ją na ekranie swoją ramką, człowiek nie jest w stanie dostrzec w tym miejscu niczego, co przypominałoby ludzkie oblicze. Jednocześnie nie dostrzegają twarzy w układzie świateł i zderzakach samochodu czy nawet schematycznym rysunku składającym się z dwóch kółek - oczu, kreski - nosa i kreski - ust. Aż by się chciało powiedzieć: "One myślą inaczej".
Samsung Navibot Samsung Navibot
Szczególnie fascynującym przykładem naśladowania człowieka stała się Siri. To wprowadzony przez Apple w najnowszym telefonie iPhone 4S system rozpoznawania mowy . Kto nie widział, jak to działa, powinien znaleźć czym prędzej jeden z tysięcy filmów dostępnych na YouTubie, gdzie ludzie nagrywają swoje rozmowy z Siri. Wrażenie jest niezwykłe. "Powiedz mi, jaka jutro będzie pogoda" - rzuca beztrosko użytkownik. Mija sekunda czy dwie i maszyna odpowiada przyjemnym głosem: "Głównie słonecznie, ale po południu może popadać. Ciepło". Niby to nic trudnego, ale Siri poradzi sobie ze znacznie trudniejszymi pytaniami. Mam jutro włożyć ciepły płaszcz? Jak daleko jest stąd do Paryża? Kiedy urodził się George Washington? Na każde z tych pytań maszyna odpowiada w kilka sekund.
To kolejny trend w technologiach i kolejny krok w stronę sztucznej "prawieinteligencji". Telefon jest oczywiście za słaby, by mógł sam znaleźć odpowiedzi na te pytania. Więcej - sam nie potrafi nawet zrozumieć pytania. Za to potrafi je błyskawicznie przesłać na serwer Apple, gdzie potężne komputery przeprowadzą wymagający wiele mocy proces rozpoznawania mowy użytkownika, wyszukają odpowiedź, sformułują ją i odeślą na telefon. A wszystko to w ciągu jednej czy dwóch sekund.
Właśnie ten system, czyli praca w chmurze, sprawia, że maszyny uwalniają się od ograniczeń sprzętowych. Na dobrą sprawę wiele z nich mogłoby się składać z mikrofonu, głośnika i modułu łączności z siecią. Reszta może odbywać się na zewnątrz. Jest tylko kwestią czasu (i to krótkiego - stawiam na trzy lata), by na tej zasadzie działały odkurzacze, lodówki, aparaty fotograficzne i samochody. Na dobrą sprawę jedyną przeszkodą jest dziś dostępność, a przede wszystkim - niezawodność sieci. A będzie się ona rozwijała dzięki pieniądzom, które będą płacić mali użytkownicy i wielkie firmy. Bo wszyscy potrzebują się łączyć.
Siri fot. Apple
Jak to wszystko ma się do sztucznej inteligencji? Narodził się schemat pracy w chmurze, gdzie miliony urządzeń działają niczym zmysły przesyłające dane do centralnych ośrodków, a te odsyłają swoje decyzje. Przypomina to układ nerwowy? Na pewno, ale nie dajmy się ponieść zbytnio fantazji. Skynet, sztuczna inteligencja, która w "Terminatorze" sama narodziła się w wojskowych systemach komputerowych, raczej nam nie grozi - świadomość wydaje się zbyt złożonym wynalazkiem ewolucji, by dała się łatwo odtworzyć.
Dzieje się za to coś równie ciekawego. Otóż systemy, które gromadzą dane, przetwarzają je i uczą się, stopniowo stają się tak podobne do nas, że za kilka lat zapewne rozmowa z nimi stanie się trudna do odróżnienia od rozmowy z drugim człowiekiem, a ich decyzje doskonale będą naśladowały nasze. Niedawno system komputerowy wygrał w specjalnej pokazowej edycji teleturnieju "Jeopardy!". Chodziło o układanie pytań do znanych odpowiedzi na zasadzie: "Był on 34. prezydentem USA" - "Kim był Dwight Eisenhower?". Po kilku rundach maszyna zaczęła zyskiwać przewagę nad ludzkimi graczami, a ostatecznie zwyciężyła, gromadząc kwotę 77 147 dol. Najlepszy człowiek uzbierał 24 tys. dol.
Czy to nie sztuczna inteligencja? Nie, to zbliżone do perfekcji naśladowanie człowieka. Z jedną tylko różnicą - brakiem świadomości. A więc możliwością działania tylko w zaprogramowanym z góry zakresie. I całe szczęście. Potrzebni nam są elektronowi słudzy, a nie elektronowe mózgi.