Tech reviews and news

Poslouchejte novou řeč AI společnosti Microsoft, která napodobuje váš hlas ze 3 sekund zvuku

click fraud protection

Společnost Microsoft odhalila nástroj, který dokáže simulovat hlas a řeč osoby, když má k dispozici pouhé tři sekundy ukázkového zvuku.

Nástroj VALL-E je přirozeným jazykovým modelem kodeků, říkají výzkumníci, a lze jej použít k syntéze řeči. Cílem je zlepšit možnosti převodu textu na řeč a učinit to trochu přirozenějším.

Širokopásmová nabídka společnosti Virgin Media

Širokopásmová nabídka společnosti Virgin Media

V rámci zimního výprodeje můžete od Virgin Media získat průměrnou rychlost stahování 516 Mb/s za 33 liber měsíčně. Smlouva trvá 18 měsíců a je zde instalační poplatek 9,99 GBP, ale pro tak vysoké rychlosti je to ideální koupě pro velké domácnosti.

  • Virgin Media
  • Průměrná rychlost 516 Mbps
  • 33 £/měsíc
Zobrazit nabídku

V příspěvek na GitHubuMicrosoft říká, že i při velmi omezeném vzorku řeči je nástroj schopen zachovat autenticitu a emoce v hlase.

Ať už je řečník naštvaný, pobavený, znechucený nebo ospalý, VALL-E dokáže udržet emoce, když simuluje hlas. Ještě to není dokonalé, ani zdaleka ne, a zdá se, že má problémy s některými silnějšími akcenty, ale celkově je to docela působivé na důkaz konceptu.

Společnost vyškolila nástroj pomocí technologie vytvořené společností Meta. Nástroj LibriLight má 60 000 hodin anglické řeči od 7 000 mluvčích. Meta vytvořila technologii, aby se pokusila vyplnit mezery ve zvukových hovorech, když je signál slabý, ale Microsoft má na mysli jiné cíle.

Přehled VALL-E
Obrazový kredit: Microsoft

Stejně jako u všeho, co souvisí s umělou inteligencí, budou existovat obavy, že by tato technologie mohla být zneužita, aby to vypadalo, jako by někdo řekl něco, co neřekl. To je něco, co jsme již zažili u video deepfakes.

Pokud se však technologie použije ze správných důvodů, mohla by lidem, kteří ztratili hlas, pomoci znovu komunikovat s ostatními vlastní řečí.

Sami si to zatím vyzkoušet nemůžete, ale Microsoft ano vydala spoustu vzorků (přes Ars Technica) předvedení technologie.

V příspěvku vysvětlujícím pokusy Microsoft říká: „VALL-E se objevuje v kontextu učení a lze jej použít k syntetizovat vysoce kvalitní personalizovanou řeč s pouze 3sekundovým registrovaným záznamem neviditelného řečníka jako akustického výzva. Výsledky experimentů ukazují, že VALL-E výrazně předčí nejmodernější systém zero-shot TTS z hlediska přirozenosti řeči a podobnosti mluvčích. Navíc jsme zjistili, že VALL-E dokáže zachovat emoce mluvčího a akustické prostředí akustické výzvy v syntéze.

Mohlo by se vám líbit…

Co očekávat od Googlu v roce 2023

Co očekávat od Googlu v roce 2023

Thomas DeehanPřed 2 týdny
Co očekávat od Microsoftu v roce 2023

Co očekávat od Microsoftu v roce 2023

Ryan JonesPřed 2 týdny
Co očekávat od Applu v roce 2023: AR, Mac Pro a iPhone 15

Co očekávat od Applu v roce 2023: AR, Mac Pro a iPhone 15

Max ParkerPřed 2 týdny

Proč věřit naší žurnalistice?

Trusted Reviews, založená v roce 2004, existuje, aby našim čtenářům poskytla důkladné, nezaujaté a nezávislé rady ohledně toho, co koupit.

Dnes máme miliony uživatelů měsíčně z celého světa a ročně hodnotíme více než 1000 produktů.

Co je Snapdragon 7 Plus Gen 2? Vysvětlení mobilní čipové sady

Nejnovější čipová sada střední třídy od Qualcommu, Snapdragon 7 Plus Gen 2, je oficiální a začíná...

Přečtěte Si Více

Starfield mě přesvědčuje, abych se vzdal svého PS5 pro Xbox Series X

Starfield mě přesvědčuje, abych se vzdal svého PS5 pro Xbox Series X

NÁZOR: Za každou úspěšnou konzolí se obvykle skrývá vlajková loď exkluzivní hry, která byla tak p...

Přečtěte Si Více

Recenze Vactidy Nimble T6: Příliš často se zasekává

Recenze Vactidy Nimble T6: Příliš často se zasekává

Levný robotický vysavač, který se často zasekává.VýrokLevný robotický vysavač Vactidy Nimble T6 p...

Přečtěte Si Více

insta story