Jeszcze przed poniedziałkową konferencją współzałożyciel i prezes OpenAI Sam Altman zapowiadał, że to, co pokaże światu jego firma będzie przełomem. "Dla mnie to magia" - tłumaczył. I rzeczywiście miał rację, co potwierdzi chyba każdy, kto obejrzał udostępnione m.in. na YouTube technologiczne demo nowego modelu językowego GPT-4o.
Zacznijmy od tego, że literka "o" w nazwie tego modelu nie pojawiła się przypadkiem. Mamy tu bowiem do czynienia z istnym "omnimodelem" czy też "wszechmodelem", który łączy w sobie funkcję co najmniej kilku modeli LLM.
Nowy model może nie tylko porozumiewać się z nami za pomocą komend tekstowych, ale potrafi również analizować dźwięk oraz obraz, i to w czasie rzeczywistym. Jak tłumaczy OpenAI, GPT-4o reaguje na audio ze średnią 320 milisekund, co odpowiada czasowi reakcji w czasie rozmowy pomiędzy dwiema osobami.
Funkcja rozpoznawania mowy pojawiła się już co prawda w wersji GPT-3.5 czy GPT-4, ale była wtedy dość mocno ograniczona, a do tego działała znacznie wolniej. Teraz cały proces odbywa się w ramach jednej sieci neuronowej, dzięki czemu GPT-4o z miejsca stał się najbardziej "ludzkim" asystentem głosowym, zostawiając daleko z tyłu takie rozwiązania, jak Siri od Apple czy Asystenta Google.
Na poniedziałkowej prezentacji mogliśmy zobaczyć m.in., jak ChatGPT z wbudowanym modelem GPT-4o pomaga uczniowi w rozwiązaniu zadania z matematyki. Rozmowa odbywa się w sposób naturalny. Nowy model potrafi szybko zareagować, gdy przerwiemy mu wpół zdania i dostarczymy nowe informacje. Gdy pokażemy mu kartkę z zapisanym równaniem, nie ograniczy się do opisania tego, co widzi, ale krok po kroku wyjaśni sposób jego rozwiązania - niczym sprawny, a przy tym cierpliwy nauczyciel.
Nowy model doskonale sprawdza się także w roli tłumacza. Na zaprezentowanym demie technologicznym mogliśmy zobaczyć, jak ChatGPT radzi sobie z tłumaczeniem z języka włoskiego na angielski. Wszystko odbywało się "w locie" - z pominięciem transkrypcji.
GPT-4o potrafi również w czasie rzeczywistym analizować otoczenie. Rozpoznaje ludzi i przedmioty, które "widzi" i potrafi odnosić się do tak pozyskanych informacji w czasie rzeczywistym.
Bodaj najbardziej "magiczną" funkcją nowego modelu językowego, która zbliża go do wizji znanych do tej pory jedynie z filmów sci-fi, jest możliwość rozpoznawania i nazywania ludzkich emocji. Podczas prezentacji, jeden z pracowników OpenAI zbliżył do twarzy obiektyw kamery smartfona, na co AI zareagowała następującym pytaniem.
Czy chcesz podzielić się powodem swojego dobrego nastroju?
Co ważne, nowe funkcje modelu GPT-4o będą dostępne także dla użytkowników darmowej wersji aplikacji ChatGPT. Otrzymają oni również możliwość tworzenia własnych chatbotów, a także dostęp do sklepu GPT Store, który dotychczas zarezerwowany był jedynie dla użytkowników premium.
Na poniedziałkowej konferencji OpenAI zaprezentowało również aplikację ChatGPT na urządzenia Apple z systemem MacOS. Póki co, mogą z niej korzystać jedynie użytkownicy płatnej subskrypcji ChatGPT Plus. Aby wywołać asystenta OpenAI na Maku wystarczy skorzystać ze skrótu klawiaturowego Option+Space.
Warto dodać, że w branży już od wielu tygodni plotkuje się na temat strategicznej współpracy pomiędzy OpenAI oraz firmą z Cupertino. Niewykluczone, że zostanie ona ogłoszona podczas zbliżającej się konferencji WWDC 2024.