Trendy

Gemini 2.0 oficiálně: Google právě představil umělou inteligenci nové generace, tohle všechno umí

Google představuje Gemini 2.0 s podporou generování obrázků a zvuku
Model je 2x rychlejší než předchůdce a dostane se do všech služeb Googlu
Novinkou je experimentální chatbot s agentními funkcemi pro výzkum a komplexní úkoly

Sdílejte:

Jakub Kárník

Publikováno: 11.12.2024 18:00

Žádné komentáře

Gemini 2.0

Google dnes představil novou generaci svého nejpokročilejšího AI modelu. Gemini 2.0 přináší kromě vylepšeného výkonu také schopnost generovat zvuk a obrázky. Společnost se ale především zaměřuje na takzvané agentní funkce – systém by měl být schopen samostatně plánovat a provádět komplexní úkoly. V první fázi se představuje experimentální verze Gemini 2.0 Flash, která je oproti předchůdci dvojnásobně rychlejší.

Obsah článku

Nové schopnosti a vylepšený výkon
Éra AI agentů začíná
Bezpečnost na prvním místě
Dostupnost pro vývojáře i běžné uživatele

Nové schopnosti a vylepšený výkon

Gemini 2.0 Flash je podle slov Googlu zatím nejschopnějším modelem, který firma vyvinula. Oproti předchůdci Gemini 1.5 Pro nabízí vyšší výkon při polovičních latencích, což v praxi znamená mnohem plynulejší konverzaci. K hlavním novinkám patří schopnost nativně generovat obrázky a zvukové výstupy. V praxi to znamená, že model dokáže v rámci jedné konverzace kombinovat text s vygenerovanými obrázky, což se hodí například při vytváření receptů nebo návodů. U zvukového výstupu nabízí několik hlasů s možností výběru jazyků a přízvuků.

Významně se také zlepšila schopnost porozumění multimodálnímu obsahu – model lépe chápe prostorové vztahy v obrázcích, dokáže identifikovat malé objekty a přesněji popisovat složité scény. Google uvádí, že Gemini 2.0 překonává předchozí verzi ve všech klíčových metrikách včetně kódu, faktické přesnosti, matematiky a logického uvažování.

google gemini 2.0 flash experimental test

Éra AI agentů začíná

Největší důraz klade Google na takzvané agentní funkce – systém by měl být schopen samostatně plánovat, pamatovat si kontext a provádět akce na základě pokynů uživatele. První vlaštovkou je funkce Deep Research dostupná v předplatném Gemini Advanced. Ta funguje jako osobní výzkumný asistent – na základě zadaného tématu samostatně prochází web, analyzuje zdroje a sestavuje komplexní výzkumné zprávy. Google uvádí, že práce, která by člověku zabrala hodiny, může být hotová během několika minut.

Ještě zajímavější je experimentální Project Mariner, který se představuje v podobě rozšíření pro Chrome. To dokáže přímo v prohlížeči automatizovat komplexní úlohy jako je vyplňování formulářů nebo vyhledávání informací. Při testování na reálných webových úlohách dosáhl úspěšnost 83,5 %.

Pro vývojáře Google představil experimentálního AI asistenta Jules, který se integruje přímo do GitHubu. Ten může samostatně analyzovat problémy v kódu, vytvářet plány oprav a implementovat je – vše samozřejmě pod dohledem vývojáře. Google experimentuje i s agenty pro herní prostředí, kteří dokáží v reálném čase radit hráčům na základě dění na obrazovce. Teoreticky by se tak mohlo v dohledné době stát, že mimo sledování walkthrough na YouTube, si vystačíme s AI, která nám poradí, jak ve hře dále postupovat. „Spolupracujeme s předními herními vývojáři, jako je Supercell, abychom prozkoumali, jak tito agenti fungují, a testujeme jejich schopnost interpretovat pravidla a výzvy v celé řadě her, od strategických titulů jako Clash of Clans po farmářské simulátory jako Hay Day,“ stojí na oficiálním Google Blogu.

Mezi další takovou „agentní“ funkci patří Project Astra, který firma testuje již od jara. Jde o vizuální systém, který dokáže rozpoznávat objekty v reálném světě, pomáhat s navigací a hlavně si vše pamatuje. Dokáže vám tedy například sdělit, kde jste si nechali své brýle. S příchodem Gemini 2.0 dostal Project Astra významný upgrade – dokáže lépe komunikovat ve více jazycích, lépe rozumí přízvukům a má přístup k nástrojům jako Google Vyhledávání, Lens či Mapy.

Bezpečnost na prvním místě

Google zdůrazňuje, že při vývoji agentních funkcí klade velký důraz na bezpečnost. Project Mariner například může pracovat pouze s aktivní záložkou prohlížeče a před citlivými akcemi jako jsou nákupy vyžaduje explicitní potvrzení od uživatele.

Společnost také vylepšila své nástroje pro testování bezpečnosti – Gemini 2.0 dokáže lépe detekovat potenciální rizika a automaticky generovat data pro jejich zmírnění. Veškeré vygenerované obrázky a zvuky budou obsahovat neviditelný vodoznak SynthID pro snazší identifikaci AI obsahu.

Dostupnost pro vývojáře i běžné uživatele

Experimentální verze Gemini 2.0 Flash je od dnešního dne dostupná vývojářům přes API v Google AI Studio a Vertex AI. Kromě vylepšeného výkonu získávají přístup k novému Multimodal Live API, které umožňuje práci s real-time audiem a video streamy z kamer nebo obrazovky.
Běžní uživatelé si mohou nový model vyzkoušet v desktopové a webové verzi aplikace Gemini, do mobilní aplikace se dostane v blízké době. Předplatitelé Gemini Advanced získávají navíc přístup k funkci Deep Research.

Google plánuje postupně integrovat Gemini 2.0 do všech svých produktů. V AI Overviews ve Vyhledávání by měl pomoci se složitějšími dotazy zahrnujícími pokročilou matematiku, multimodální požadavky nebo programování. Americký kolos uvádí, že tyto přehledy nyní využívá přes miliardu uživatelů měsíčně.

Google Gemini

Google Gemini

Instalovat (Free)

Google Play

Na širší dostupnost nového modelu v dalších službách Googlu si budeme muset počkat do začátku příštího roku. Společnost zatím nespecifikovala přesný harmonogram nasazení ani plány ohledně dostupnosti pokročilejších verzí modelu mimo experimentální Flash variantu.

Demis Hassabis, šéf Google DeepMind, označil rok 2025 za „skutečný začátek éry založené na agentech“. Zároveň ale přiznává, že s rostoucími schopnostmi AI přicházejí i nová rizika. „Budeme potřebovat nová bezpečnostní řešení, jako je testování v zabezpečených sandboxech. To bude klíčové pro testování agentů, spíše než je pouštět rovnou ven,“ uvedl Hassabis.

Gemini 2.0 působí jako solidní evoluce, která kromě vylepšeného výkonu přináší především vizi toho, jak by mohla umělá inteligence v blízké budoucnosti fungovat. Místo pouhého chatbota dostáváme asistenta, který dokáže skutečně „vzít věci do vlastních rukou“ – samozřejmě pod naším dohledem. Jestli se mu to podaří a zda uživatelé takového pomocníka skutečně chtějí, ukáže až čas. Google každopádně jasně naznačuje, že éra pasivních chatbotů podle něj pomalu končí.

Co říkáte na novinky v Gemini 2.0?

Zdroj: tisková zpráva, Blog Google (1, 2, 3, 4)

O autorovi

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Více o autorovi

Sdílejte:

Žádné komentáře

Vložit komentář

Mohlo by vás zajímat

Integrace Google Gemini do Android Auto

Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci

Android Auto 13.5

Android Auto dostává první letošní aktualizaci. Co je nového?

Quick Share a QR kód

Google Quick Share přináší pro všechny skvělou funkci, kterou už Samsung umí dávno

Libor Foltýnek

Fotky Google, třídění fotografií

Fotky Google dají uživatelům větší kontrolu, chyby AI půjde opravit

Libor Foltýnek

Samsung Ballie

Roztomilý robůtek od Samsungu zamíří do domácností. Malý AI asistent pomůže zahnat nudu i samotu

Google Gemini a chytré hodinky

Google se chystá nasadit Gemini na chytré hodinky s Wear OS. Můžeme čekat češtinu?

Libor Foltýnek