Nástroj DIRFA dokáže přeměnit zvukové klipy na realistické digitální tváře
- Zprávičky
- Zuzana Přibylová
- 30.11.2023
- 0
- Na univerzitě v Singapuru byl představen průlomový počítačový program
- Zvládne transformovat zvukový klip a statické fotografie do realistického 3D videa
- Dokáže inteligentně předpovídat a replikovat odpovídající výrazy obličeje a pohyby hlavy
Tým Singapurských výzkumníků vyvinul program Dirfa (Diverse yet Realistic Facial Animations). Jedná se o průlom v umělé inteligenci, který dokáže transformovat jednoduché zvukové klipy a statickou fotografii do trojrozměrné animace. Jednoduše řečeno, pokud máte hlasovou nahrávku a fotografie, program vám vytvoří digitální kopii zobrazeného člověka. Videa jsou schopné interpretovat přesnou synchronizaci rtů s hlasem, bohatou škálu výrazů a přirozené pohyby hlavy.
Možný průlom v klonování identit?
DIRFA spočívá v jeho pokročilém AI algoritmu, který kombinuje zvukový vstup, fotografické snímky a následně z nich dokáže vytvořit 3D video. Technologie umí předpovídat a replikovat emočně odpovídající výrazy, pohyby hlavy, celé video je velmi realistické a výrazně lepší než nástroje, které jsme dodnes znali. Tradiční modely většinou přesně replikovali jemnost lidských emocí a nedokázaly zvládnout různé pohyby hlavy. Společnost má v plánu posunout hranici digitálních médií a vyniká hlavně díky zachycení široké škály emocionálních gest.
This AI program creates 3D videos from a photo and an audio clip
Společnost nástroj trénovala na sadě obličejů pohybů hlavy a řečových vzorků od tisíců jedinců, díky tomu se naučil identifikovat a replikovat jemná gesta, která charakterizují lidské výrazy nebo řeč. Dále byl trénovaný na audiovizuálních klipech pocházejících z datového souboru VoxCeleb2, což je databáze obsahující více než 1 milion výroků pro 6 112 celebrit, extrahovaných z videí nahraných na YouTube. Univerzitní profesor Dr. Wu Rongliang k jejich výtvoru dodává:
„Řeč vykazuje mnoho variací. Jednotlivci vyslovují stejná slova odlišně v různých kontextech, včetně variací se liší v trvání, amplitudě, tónu a dalších. Kromě lingvistického obsahu řeč navíc poskytuje bohaté informace o emočním stavu mluvčího a faktorech identity, jako je pohlaví, věk, etnická příslušnost a dokonce i osobnostní rysy. Náš přístup představuje průkopnické úsilí o zvýšení výkonu z pohledu učení zvukové reprezentace v AI a strojovém učení.“
Dle vývojářů by nástroj mohl pomoci jednotlivcům s poruchami řeči nebo obličeje umožnit vyjádřit své myšlenky a emoce prostřednictvím výrazných avatarů. Díky tomu zlepšit jejich schopnosti efektivně komunikovat. Ačkoliv se pyšní velmi inteligentní technologií, před společností je ještě spousta práce. Například v neschopnosti přizpůsobit konkrétní výrazy, jako je změna zamračeného výrazu na úsměv nebo náhodné změny nálad v konverzaci jsou omezení, které se snaží překonat.
▶️??? New #AI tool: #NTUsg scientists have developed DIRFA, a program that creates realistic #talkinghead videos using just photos and audio clips. Researchers stated that DIRFA could lead to new applications across various industries and domains, such as improving user… pic.twitter.com/u5UFH37KQq
— NTU Singapore (@NTUsg) November 16, 2023
Co si myslíte o programu DIRFA?
Zdroj: unite.AI
Od dětství ji fascinovaly nejnovější technologie, počítače a veškeré druhy herních konzolí. S PlayStationem 1 a později Xboxem 360 začala její vášeň pro herní svět,… více o autorovi
Komentáře (0)
Přidat komentář