Hallgassa meg a Microsoft új beszéd AI-ját, amely 3 másodperces hangból utánozza az Ön hangját

A Microsoft bemutatott egy olyan eszközt, amely képes szimulálni egy személy hangját és beszédét, ha mindössze három másodperces hangmintát kapnak az alapjául.

A VALL-E eszköz egy természetes kodek nyelvi modell, állítják a kutatások, és beszédszintetizálásra használható. Az ötlet az, hogy javítsuk a szövegfelolvasó képességeket, és egy kicsit természetesebbé tegyük a hangzást.

Virgin Media szélessávú üzlet

A téli akció részeként hatalmas, 516 Mbps-os átlagos letöltési sebességet kaphat havi 33 fontért a Virgin Media-tól. A szerződés 18 hónapra szól, és 9,99 GBP telepítési költséget kell fizetni, de ilyen nagy sebesség esetén ez ideális vétel a nagy háztartások számára.

Virgin Media
516 Mbps átlagos sebesség
£33/hó

Tekintse meg az ajánlatot

Az a bejegyzést a GitHubon, a Microsoft szerint az eszköz még a nagyon korlátozott beszédmintával is képes megőrizni a hang hitelességét és érzelmeit.

Akár dühös, akár szórakozott, undorodó vagy álmos a beszélő, a VALL-E képes megőrizni az érzelmeket, amikor szimulálja a hangot. Még nem tökéletes, távolról sem, és úgy tűnik, hogy vannak problémái az erősebb akcentusokkal, de összességében elég lenyűgöző a koncepció bizonyítékaként.

instagram viewer

A cég a Meta által létrehozott technológiával képezte ki az eszközt. A LibriLight eszköz 60 000 órányi angol nyelvű beszédet kínál 7 000 beszélőtől. A Meta azért hozta létre a technológiát, hogy megpróbálja kitölteni az audiohívások hiányosságait, ha gyenge a jel, de a Microsoftnak más céljai vannak.

VALL-E Áttekintés — A kép jóváírása: Microsoft

Mint minden mesterséges intelligenciával kapcsolatos dolognál, félni kell, hogy a technológiával visszaélnek, és úgy tűnjenek, mintha valaki olyat mondott volna, amit nem. Ezt már tapasztaltuk a videó mélyhamisításoknál.

Ha azonban a technológiát megfelelő okokból használják, az segítheti a hangjukat elvesztő embereket, hogy újra saját beszédükben kommunikáljanak másokkal.

Ön még nem próbálhatja ki, de a Microsoft igen sok mintát adott ki (keresztül Ars Technica) bemutatva a technológiát.

A kísérleteket ismertető bejegyzésben a Microsoft azt mondja: „A VALL-E kontextusban tanulási képességekkel jelentkezik, és felhasználható szintetizáljon kiváló minőségű, személyre szabott beszédet mindössze 3 másodperces regisztrált felvétellel egy láthatatlan beszélőről akusztikusként gyors. A kísérleti eredmények azt mutatják, hogy a VALL-E a beszéd természetessége és a beszélők hasonlósága tekintetében jelentősen felülmúlja a legmodernebb zero-shot TTS rendszert. Ezenkívül úgy találtuk, hogy a VALL-E meg tudja őrizni a hangszóró érzelmét és az akusztikus felszólítás akusztikus környezetét a szintézis során.