Poslouchejte novou řeč AI společnosti Microsoft, která napodobuje váš hlas ze 3 sekund zvuku

Společnost Microsoft odhalila nástroj, který dokáže simulovat hlas a řeč osoby, když má k dispozici pouhé tři sekundy ukázkového zvuku.

Nástroj VALL-E je přirozeným jazykovým modelem kodeků, říkají výzkumníci, a lze jej použít k syntéze řeči. Cílem je zlepšit možnosti převodu textu na řeč a učinit to trochu přirozenějším.

Širokopásmová nabídka společnosti Virgin Media

V rámci zimního výprodeje můžete od Virgin Media získat průměrnou rychlost stahování 516 Mb/s za 33 liber měsíčně. Smlouva trvá 18 měsíců a je zde instalační poplatek 9,99 GBP, ale pro tak vysoké rychlosti je to ideální koupě pro velké domácnosti.

Virgin Media
Průměrná rychlost 516 Mbps
33 £/měsíc

Zobrazit nabídku

V příspěvek na GitHubuMicrosoft říká, že i při velmi omezeném vzorku řeči je nástroj schopen zachovat autenticitu a emoce v hlase.

Ať už je řečník naštvaný, pobavený, znechucený nebo ospalý, VALL-E dokáže udržet emoce, když simuluje hlas. Ještě to není dokonalé, ani zdaleka ne, a zdá se, že má problémy s některými silnějšími akcenty, ale celkově je to docela působivé na důkaz konceptu.

instagram viewer

Společnost vyškolila nástroj pomocí technologie vytvořené společností Meta. Nástroj LibriLight má 60 000 hodin anglické řeči od 7 000 mluvčích. Meta vytvořila technologii, aby se pokusila vyplnit mezery ve zvukových hovorech, když je signál slabý, ale Microsoft má na mysli jiné cíle.

Přehled VALL-E — Obrazový kredit: Microsoft

Stejně jako u všeho, co souvisí s umělou inteligencí, budou existovat obavy, že by tato technologie mohla být zneužita, aby to vypadalo, jako by někdo řekl něco, co neřekl. To je něco, co jsme již zažili u video deepfakes.

Pokud se však technologie použije ze správných důvodů, mohla by lidem, kteří ztratili hlas, pomoci znovu komunikovat s ostatními vlastní řečí.

Sami si to zatím vyzkoušet nemůžete, ale Microsoft ano vydala spoustu vzorků (přes Ars Technica) předvedení technologie.

V příspěvku vysvětlujícím pokusy Microsoft říká: „VALL-E se objevuje v kontextu učení a lze jej použít k syntetizovat vysoce kvalitní personalizovanou řeč s pouze 3sekundovým registrovaným záznamem neviditelného řečníka jako akustického výzva. Výsledky experimentů ukazují, že VALL-E výrazně předčí nejmodernější systém zero-shot TTS z hlediska přirozenosti řeči a podobnosti mluvčích. Navíc jsme zjistili, že VALL-E dokáže zachovat emoce mluvčího a akustické prostředí akustické výzvy v syntéze.