ChatGPT dostał uszy, usta i duszę. OpenAI pokazało przełomową technologię. "Magia"

Daniel Maikowski
Zgodnie z zapowiedziami, w poniedziałek wieczorem firma OpenAI zaprezentowała zupełnie nowy model językowy GPT-4o, dzięki któremu interakcja z aplikacją ChatGPT jeszcze bardziej będzie przypominać rozmowę z człowiekiem.
OpenAI
OpenAI

Jeszcze przed poniedziałkową konferencją współzałożyciel i prezes OpenAI Sam Altman zapowiadał, że to, co pokaże światu jego firma będzie przełomem. "Dla mnie to magia" - tłumaczył. I rzeczywiście miał rację, co potwierdzi chyba każdy, kto obejrzał udostępnione m.in. na YouTube technologiczne demo nowego modelu językowego GPT-4o.

OpenAI pokazało przełomową technologię. "Magia"

Zacznijmy od tego, że literka "o" w nazwie tego modelu nie pojawiła się przypadkiem. Mamy tu bowiem do czynienia z istnym "omnimodelem" czy też "wszechmodelem", który łączy w sobie funkcję co najmniej kilku modeli LLM.

 

Nowy model może nie tylko porozumiewać się z nami za pomocą komend tekstowych, ale potrafi również analizować dźwięk oraz obraz, i to w czasie rzeczywistym. Jak tłumaczy OpenAI, GPT-4o reaguje na audio ze średnią 320 milisekund, co odpowiada czasowi reakcji w czasie rozmowy pomiędzy dwiema osobami. 

Funkcja rozpoznawania mowy pojawiła się już co prawda w wersji GPT-3.5 czy GPT-4, ale była wtedy dość mocno ograniczona, a do tego działała znacznie wolniej. Teraz cały proces odbywa się w ramach jednej sieci neuronowej, dzięki czemu GPT-4o z miejsca stał się najbardziej "ludzkim" asystentem głosowym, zostawiając daleko z tyłu takie rozwiązania, jak Siri od Apple czy Asystenta Google.

 

Na poniedziałkowej prezentacji mogliśmy zobaczyć m.in., jak ChatGPT z wbudowanym modelem GPT-4o pomaga uczniowi w rozwiązaniu zadania z matematyki. Rozmowa odbywa się w sposób naturalny. Nowy model potrafi szybko zareagować, gdy przerwiemy mu wpół zdania i dostarczymy nowe informacje. Gdy  pokażemy mu kartkę z zapisanym równaniem, nie ograniczy się do opisania tego, co widzi, ale krok po kroku wyjaśni sposób jego rozwiązania - niczym sprawny, a przy tym cierpliwy nauczyciel

Nowy model doskonale sprawdza się także w roli tłumacza. Na zaprezentowanym demie technologicznym mogliśmy zobaczyć, jak ChatGPT radzi sobie z tłumaczeniem z języka włoskiego na angielski. Wszystko odbywało się "w locie" - z pominięciem transkrypcji. 

 

GPT-4o potrafi również w czasie rzeczywistym analizować otoczenie. Rozpoznaje ludzi i przedmioty, które "widzi" i potrafi odnosić się do tak pozyskanych informacji w czasie rzeczywistym.

 

Bodaj najbardziej "magiczną" funkcją nowego modelu językowego, która zbliża go do wizji znanych do tej  pory jedynie z filmów sci-fi, jest możliwość rozpoznawania i nazywania ludzkich emocji. Podczas prezentacji, jeden z pracowników OpenAI zbliżył do twarzy obiektyw kamery smartfona, na co AI zareagowała następującym pytaniem

Czy chcesz podzielić się powodem swojego dobrego nastroju?

Niespodzianka od OpenAI. GPT-4o będzie dostępny za darmo

Co ważne, nowe funkcje modelu GPT-4o będą dostępne także dla użytkowników darmowej wersji aplikacji ChatGPT. Otrzymają oni również możliwość tworzenia własnych chatbotów, a także dostęp do sklepu GPT Store, który dotychczas zarezerwowany był jedynie dla użytkowników premium.

Na poniedziałkowej konferencji OpenAI zaprezentowało również aplikację ChatGPT na urządzenia Apple z systemem MacOS. Póki co, mogą z niej korzystać jedynie użytkownicy płatnej subskrypcji ChatGPT Plus. Aby wywołać asystenta OpenAI na Maku wystarczy skorzystać ze skrótu klawiaturowego Option+Space.

Warto dodać, że w branży już od wielu tygodni plotkuje się na temat strategicznej współpracy pomiędzy OpenAI oraz firmą z Cupertino. Niewykluczone, że zostanie ona ogłoszona podczas zbliżającej się konferencji WWDC 2024.

Daniel Maikowski
Więcej o: