Poslouchejte novou řeč AI společnosti Microsoft, která napodobuje váš hlas ze 3 sekund zvuku
Společnost Microsoft odhalila nástroj, který dokáže simulovat hlas a řeč osoby, když má k dispozici pouhé tři sekundy ukázkového zvuku.
Nástroj VALL-E je přirozeným jazykovým modelem kodeků, říkají výzkumníci, a lze jej použít k syntéze řeči. Cílem je zlepšit možnosti převodu textu na řeč a učinit to trochu přirozenějším.
Širokopásmová nabídka společnosti Virgin Media
V rámci zimního výprodeje můžete od Virgin Media získat průměrnou rychlost stahování 516 Mb/s za 33 liber měsíčně. Smlouva trvá 18 měsíců a je zde instalační poplatek 9,99 GBP, ale pro tak vysoké rychlosti je to ideální koupě pro velké domácnosti.
- Virgin Media
- Průměrná rychlost 516 Mbps
- 33 £/měsíc
V příspěvek na GitHubuMicrosoft říká, že i při velmi omezeném vzorku řeči je nástroj schopen zachovat autenticitu a emoce v hlase.
Ať už je řečník naštvaný, pobavený, znechucený nebo ospalý, VALL-E dokáže udržet emoce, když simuluje hlas. Ještě to není dokonalé, ani zdaleka ne, a zdá se, že má problémy s některými silnějšími akcenty, ale celkově je to docela působivé na důkaz konceptu.
Společnost vyškolila nástroj pomocí technologie vytvořené společností Meta. Nástroj LibriLight má 60 000 hodin anglické řeči od 7 000 mluvčích. Meta vytvořila technologii, aby se pokusila vyplnit mezery ve zvukových hovorech, když je signál slabý, ale Microsoft má na mysli jiné cíle.
Stejně jako u všeho, co souvisí s umělou inteligencí, budou existovat obavy, že by tato technologie mohla být zneužita, aby to vypadalo, jako by někdo řekl něco, co neřekl. To je něco, co jsme již zažili u video deepfakes.
Pokud se však technologie použije ze správných důvodů, mohla by lidem, kteří ztratili hlas, pomoci znovu komunikovat s ostatními vlastní řečí.
Sami si to zatím vyzkoušet nemůžete, ale Microsoft ano vydala spoustu vzorků (přes Ars Technica) předvedení technologie.
V příspěvku vysvětlujícím pokusy Microsoft říká: „VALL-E se objevuje v kontextu učení a lze jej použít k syntetizovat vysoce kvalitní personalizovanou řeč s pouze 3sekundovým registrovaným záznamem neviditelného řečníka jako akustického výzva. Výsledky experimentů ukazují, že VALL-E výrazně předčí nejmodernější systém zero-shot TTS z hlediska přirozenosti řeči a podobnosti mluvčích. Navíc jsme zjistili, že VALL-E dokáže zachovat emoce mluvčího a akustické prostředí akustické výzvy v syntéze.
Mohlo by se vám líbit…
Co očekávat od Googlu v roce 2023
Co očekávat od Microsoftu v roce 2023
Co očekávat od Applu v roce 2023: AR, Mac Pro a iPhone 15
Proč věřit naší žurnalistice?
Trusted Reviews, založená v roce 2004, existuje, aby našim čtenářům poskytla důkladné, nezaujaté a nezávislé rady ohledně toho, co koupit.
Dnes máme miliony uživatelů měsíčně z celého světa a ročně hodnotíme více než 1000 produktů.