Umělá inteligence Googlu se zase vytahuje. Mluví jako člověk, skládá vážnou hudbu Hlavní stránka Články Sdílejte: Daniel Macho Publikováno: 12.9.2016 18:00 2 komentáře 2 Reklama V minulosti jsme již několikrát psali o úspěších umělé inteligence. Jednou to byla umělá inteligence IBM jménem Watson, jindy zase ta od Googlu. Pokaždé ale předvedla něco, co dosud počítač sám od sebe nedovedl. V minulosti jsme Googlí AI mohli třeba vidět skládat temnou až děsivou poezii (psali jsme v článku AI Googlu přečetla tisíce románů. Nyní se dala na jejich psaní), Watsona řídit autobus či skládat filmové trailery. Nyní se Google chlubí tím, že jeho AI umí mluvit jako člověk a skládat dobře znějící klavírní hudbu. Umělá inteligence Googlu nemá strojový hlas Googlem vlastněná společnost DeepMind, zabývající se právě umělou inteligencí předvedla hlubokou neuronovou síť, která úžasně generuje lidskou řeč. Tato síť, kterou prozatím nazvali WaveNet, představuje významný pokrok, oproti současným hlasovým syntetizérům. DeepMind tvrdí, že projev WaveNetu vyplňuje mezeru mezi parametrickým (současně nejpoupoužívanějším) projevem a reálným lidským projevem až o více než 50%. Google tedy udělal výzkum na 500 nic netušících jednotlivcích. Celý výzkum byl proveden ve dvou jazycích – v americké angličtině a mandarínské čínštině. Testovaní dostávali k poslechu hlasové ukázky a jejich úkolem bylo obodovat hlasový projev. Opravdový lidský hlas měl rovných pět bodů, což tedy bylo maximální možné bodové ohodnocení. V angličtině získal parametrický TTS (běžně používaný ve službách Googlu) průměrné ohodnocení 3,67. Konkatenativní TTS (používaný Siri od Applu) získal průměrně o něco více, 3,86 bodu. WaveNet se ale ani profesionálkou Siri nenechala zaskočit a přišla s průměrným výsledkem 4,21 bodu. V mandarínské čínštině sice dopadly výsledky značně jinak, ale WaveNet byla stále o mnoho napřed před parametrickým i konkatenativním projevem. V čem se WaveNet liší? Hlavním rozdílem je, že WaveNet může přímo modulovat syrový průběh audiosignálu, což je tak náročný proces, že k němu byla nutná právě samostatná neuronová síť. WaveNet se učí z nahrávek lidského hlasu a poté získané znalosti aplikuje sama na svůj vlastní výstup. A právě tato nezávislost pak programu umožňuje tvořit i jiné druhy zvuku, například hudbu. Aby DeepMind a Google podpořili svá tvrzení, dodávají ve své studii několik zvukových vzorků, které můžete mezi sebou sami porovnat. K dispozici máme dvě věty, pokaždé vyřčenou jak parametrickým TTS, tak i WaveNetem. Věta první: Parametrické TTS WaveNet Věta druhá: Parametrické TTS WaveNet Poté, co byla neuronová umělá inteligence Googlu vyškolena hudbou, začala produkovat zajímavé klavírní melodie. I ty si můžete poslechnout: sample_1.wav sample_2.wav sample_3.wav Ptáte se jaké mohou být z WaveNetu a jeho umu důsledky? Kromě toho, že bude snazší mluvit s našimi případnými robotickými vládci, by z toho mohli prospěch především naši virtuální asistenti, ať už Google Asistent, Siri nebo Cortana. Tento úspěch mimo jiný opět dokazuje potenciál neuronových sítí, které mouhou a jsou používány v rozpoznání rukopisu, vyhledávání obrázků, překladů či boji proti podvodům nebo spamu. Pokud by vás zajímaly detaily o neuronové síti WaveNet, můžete nahlédnout do PDF, které Google nechal zapsat jako součást studie. Zdroj: bigthink.com O autorovi Daniel Macho Sdílejte: 2 komentáře Vložit komentář AI DeepMind Google TTS Umělá inteligence Mohlo by vás zajímat Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci Adam Kurfürst 9.1. Android Auto dostává první letošní aktualizaci. Co je nového? Adam Kurfürst 10.1. Google Quick Share přináší pro všechny skvělou funkci, kterou už Samsung umí dávno Libor Foltýnek 8.1.