Nástroj DIRFA dokáže přeměnit zvukové klipy na realistické digitální tváře Hlavní stránka Zprávičky Sdílejte: Zuzana Přibylová Publikováno: 30.11.2023 22:00 Žádné komentáře 0 Na univerzitě v Singapuru byl představen průlomový počítačový program Zvládne transformovat zvukový klip a statické fotografie do realistického 3D videa Dokáže inteligentně předpovídat a replikovat odpovídající výrazy obličeje a pohyby hlavy Tým Singapurských výzkumníků vyvinul program Dirfa (Diverse yet Realistic Facial Animations). Jedná se o průlom v umělé inteligenci, který dokáže transformovat jednoduché zvukové klipy a statickou fotografii do trojrozměrné animace. Jednoduše řečeno, pokud máte hlasovou nahrávku a fotografie, program vám vytvoří digitální kopii zobrazeného člověka. Videa jsou schopné interpretovat přesnou synchronizaci rtů s hlasem, bohatou škálu výrazů a přirozené pohyby hlavy. Možný průlom v klonování identit? DIRFA spočívá v jeho pokročilém AI algoritmu, který kombinuje zvukový vstup, fotografické snímky a následně z nich dokáže vytvořit 3D video. Technologie umí předpovídat a replikovat emočně odpovídající výrazy, pohyby hlavy, celé video je velmi realistické a výrazně lepší než nástroje, které jsme dodnes znali. Tradiční modely většinou přesně replikovali jemnost lidských emocí a nedokázaly zvládnout různé pohyby hlavy. Společnost má v plánu posunout hranici digitálních médií a vyniká hlavně díky zachycení široké škály emocionálních gest. Společnost nástroj trénovala na sadě obličejů pohybů hlavy a řečových vzorků od tisíců jedinců, díky tomu se naučil identifikovat a replikovat jemná gesta, která charakterizují lidské výrazy nebo řeč. Dále byl trénovaný na audiovizuálních klipech pocházejících z datového souboru VoxCeleb2, což je databáze obsahující více než 1 milion výroků pro 6 112 celebrit, extrahovaných z videí nahraných na YouTube. Univerzitní profesor Dr. Wu Rongliang k jejich výtvoru dodává: „Řeč vykazuje mnoho variací. Jednotlivci vyslovují stejná slova odlišně v různých kontextech, včetně variací se liší v trvání, amplitudě, tónu a dalších. Kromě lingvistického obsahu řeč navíc poskytuje bohaté informace o emočním stavu mluvčího a faktorech identity, jako je pohlaví, věk, etnická příslušnost a dokonce i osobnostní rysy. Náš přístup představuje průkopnické úsilí o zvýšení výkonu z pohledu učení zvukové reprezentace v AI a strojovém učení.“ Dle vývojářů by nástroj mohl pomoci jednotlivcům s poruchami řeči nebo obličeje umožnit vyjádřit své myšlenky a emoce prostřednictvím výrazných avatarů. Díky tomu zlepšit jejich schopnosti efektivně komunikovat. Ačkoliv se pyšní velmi inteligentní technologií, před společností je ještě spousta práce. Například v neschopnosti přizpůsobit konkrétní výrazy, jako je změna zamračeného výrazu na úsměv nebo náhodné změny nálad v konverzaci jsou omezení, které se snaží překonat. ▶️??? New #AI tool: #NTUsg scientists have developed DIRFA, a program that creates realistic #talkinghead videos using just photos and audio clips. Researchers stated that DIRFA could lead to new applications across various industries and domains, such as improving user… pic.twitter.com/u5UFH37KQq— NTU Singapore (@NTUsg) November 16, 2023 Co si myslíte o programu DIRFA? Zdroj: unite.AI O autorovi Zuzana Přibylová Od dětství ji fascinovaly nejnovější technologie, počítače a veškeré druhy herních konzolí. S PlayStationem 1 a později Xboxem 360 začala její vášeň pro herní svět,… Více o autorovi Sdílejte: Žádné komentáře Vložit komentář 3D AI Umělá inteligence Mohlo by vás zajímat Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci Adam Kurfürst 9.1. Fotky Google dají uživatelům větší kontrolu, chyby AI půjde opravit Libor Foltýnek 10.1. Roztomilý robůtek od Samsungu zamíří do domácností. Malý AI asistent pomůže zahnat nudu i samotu Jana Skálová 9.1.