ChatGPT-4o je umělá inteligence na steroidech. Pochopí obraz, text i video a je k dispozici zdarma!
- Zprávičky
- Libor Foltýnek
- 14.5.2024
- 2
- OpenAI představilo nový model ChatGPT-4o
- Je rychlejší, umí si s vámi povídat a zpracuje obraz, text a video
- Bude dostupný pro všechny, tedy i pro neplatící uživatele
OpenAI dnes představilo novinky. Vlastně jednu novinku, ale zato pořádnou, a to ChatGPT-4o (to není čtyřicet, ale čtyři-ó – o, jako “omni”). Bude dostupná brzo a pro všechny. Platící zákazníci ji dostanou dřív, ale mělo by se dostat i na neplatící uživatele. Mně už se nabídlo během psaní článku. Cílem mise OpenAI je, podle jejich vlastních slov, přinášet možnosti umělé inteligence celému lidstvu.
Obsah článku
- Zpracování obrazu
- Store pro všechny
- Hlasový model
- Desktopová aplikace
- Realtime překlad
- Popis osoby
- Dostupnost modelu
Zpracování obrazu
Vyfotit obrázek a nahrát ho do chatu? To je minulost! V prezentaci jsme měli možnost sledovat, jak moderátor píše na papír zadání rovnice a nahrává to jako video. ChatGPT-4o přitom okamžitě reagoval na hlasové vstupy. Moderátor požádal ChatGPT-4o, aby mu neřekl přímo řešení, ale aby ho k němu navedl a on to opravdu udělal.
Pouhé rovnice jsou nuda, dokáže ChatGPT-4o poznat, co je na obrázku? Jasně, a to včetně překvapené a polichocené reakce!
Store pro všechny
Obchod s modely na míru je nyní k dispozici všem a zdarma. Můžete si vytvářet vlastní model a sdílet ho ve store.
Hlasový model
V ChatGPT-4 funguje hlasový mód takto: hlasový režim je kanálem tří samostatných modelů: jeden jednoduchý model přepisuje zvuk na text, GPT-4 přijímá text a odpovídá v také textové podobě a třetí jednoduchý model převádí tento text zpět na zvuk. Tento proces znamená, že hlavní zdroj inteligence, GPT-4, ztrácí mnoho informací – nemůže přímo pozorovat tón, zvuky na pozadí a nemůže vydávat smích, zpěv nebo vyjadřovat emoce.
Pomocí GPT-4o je natrénovaný jeden nový model end-to-end napříč textem, obrazem a zvukem, což znamená, že všechny vstupy a výstupy zpracovává stejná neuronová síť. Na rozdíl od ChatGPT-4, který reagoval v průměru za 5 sekund, ChatGPT-4o reaguje v průměru za 320 milisekund, což odpovídá reakci člověka v běžném rozhovoru.
V prezentaci byl ChatGPT-4o požádán, aby odvyprávěl příběh o robotovi. Doporučujeme shlédnout prezentaci a samozřejmě, až bude ChatGPT-4o dostupný, si to vyzkoušet. Moderátoři postupně nutili model ke změně intonace, zvýšení dramatičnosti a nakonec ke strojovému hlasu a dokonce zpívanému přednesu.
Desktopová aplikace
Nově je k dispozici desktopová aplikace. Prezentována byla verze pro Mac, o dostupnosti pro jiné platformy nepadla konkrétní zmínka. Aplikace dokáže například sledovat obsah monitoru a pracovat s ním. V ukázce rozpoznala kód programu a popsala, co dělá. Vzápětí dokázala rozpoznat, co je na zobrazeném grafu a najít v něm například maximální hodnoty.
Realtime překlad
Co mě naprosto usadilo, bylo sledovat, jak si moderátorka a moderátor povídají. Ona italsky, on anglicky. ChatGPT-4o přitom překládat tak, že když jeden z nich skončil, přeložil text do druhého jazyka. Přitom překlad nebyl otrocký, ale včetně intonace a zprostředkování pocitů! Navíc překlad nebyl 1:1, ale ve stylu “říká, že…” Pokud tohle bude dostupné pro češtinu, bude to možná pro nás událost roku.
Popis osoby
Tohle bylo také super. ChatGPT-4o dostal za úkol popsat osobu, kterou vidí. Že se jedná o opravdu živé demo bylo poznat třeba z toho, že ChatGPT-4o začal nejprve popisovat dřevěnou desku stolu. Začal totiž moc brzo, ještě než moderátor přepnul na selfie kameru :) Následně korektně popsal osobu jako fajn člověka, který se usmívá a má dobrou náladu.
Dostupnost modelu
Funkce GPT-4o budou zaváděny iterativně. Textové a obrazové schopnosti GPT-4o se začínají publikovat dnes. GPT-4o je zpřístupněn v bezplatné verzi a uživatelům Plus s až 5x vyššími limity zpráv. V nadcházejících týdnech bude uvedena nová verze hlasového režimu s GPT-4o v alfa verzi v rámci ChatGPT Plus.
Vývojáři nyní mohou také přistupovat k GPT-4o v API jako k textovému a vizuálnímu modelu. GPT-4o je 2x rychlejší, stojí polovic a má 5x vyšší rychlostní limity ve srovnání s GPT-4 Turbo. V nadcházejících týdnech se plánuje spustit podpora nových zvukových a obrazových funkcí GPT-4o pro malou skupinu důvěryhodných partnerů v API.
Necháte si od ChatGPT-4o vyprávět pohádky před spaním?
Pokud jste nestihli přímý přenos prezentace novinek, můžete si ho pustit ze záznamu. Z prezentace jsou také použité snímky.
Libor Foltýnek je redaktor s rozsáhlými zkušenostmi v oblasti technologií a fotografie. Jeho práce je charakterizována důkladným výzkumem, poutavým vyprávěním a praktickými radami, které zpřístupňují… více o autorovi
Komentáře (2)
Přidat komentář