Hallgassa meg a Microsoft új beszéd AI-ját, amely 3 másodperces hangból utánozza az Ön hangját
A Microsoft bemutatott egy olyan eszközt, amely képes szimulálni egy személy hangját és beszédét, ha mindössze három másodperces hangmintát kapnak az alapjául.
A VALL-E eszköz egy természetes kodek nyelvi modell, állítják a kutatások, és beszédszintetizálásra használható. Az ötlet az, hogy javítsuk a szövegfelolvasó képességeket, és egy kicsit természetesebbé tegyük a hangzást.
Virgin Media szélessávú üzlet
A téli akció részeként hatalmas, 516 Mbps-os átlagos letöltési sebességet kaphat havi 33 fontért a Virgin Media-tól. A szerződés 18 hónapra szól, és 9,99 GBP telepítési költséget kell fizetni, de ilyen nagy sebesség esetén ez ideális vétel a nagy háztartások számára.
- Virgin Media
- 516 Mbps átlagos sebesség
- £33/hó
Az a bejegyzést a GitHubon, a Microsoft szerint az eszköz még a nagyon korlátozott beszédmintával is képes megőrizni a hang hitelességét és érzelmeit.
Akár dühös, akár szórakozott, undorodó vagy álmos a beszélő, a VALL-E képes megőrizni az érzelmeket, amikor szimulálja a hangot. Még nem tökéletes, távolról sem, és úgy tűnik, hogy vannak problémái az erősebb akcentusokkal, de összességében elég lenyűgöző a koncepció bizonyítékaként.
A cég a Meta által létrehozott technológiával képezte ki az eszközt. A LibriLight eszköz 60 000 órányi angol nyelvű beszédet kínál 7 000 beszélőtől. A Meta azért hozta létre a technológiát, hogy megpróbálja kitölteni az audiohívások hiányosságait, ha gyenge a jel, de a Microsoftnak más céljai vannak.
Mint minden mesterséges intelligenciával kapcsolatos dolognál, félni kell, hogy a technológiával visszaélnek, és úgy tűnjenek, mintha valaki olyat mondott volna, amit nem. Ezt már tapasztaltuk a videó mélyhamisításoknál.
Ha azonban a technológiát megfelelő okokból használják, az segítheti a hangjukat elvesztő embereket, hogy újra saját beszédükben kommunikáljanak másokkal.
Ön még nem próbálhatja ki, de a Microsoft igen sok mintát adott ki (keresztül Ars Technica) bemutatva a technológiát.
A kísérleteket ismertető bejegyzésben a Microsoft azt mondja: „A VALL-E kontextusban tanulási képességekkel jelentkezik, és felhasználható szintetizáljon kiváló minőségű, személyre szabott beszédet mindössze 3 másodperces regisztrált felvétellel egy láthatatlan beszélőről akusztikusként gyors. A kísérleti eredmények azt mutatják, hogy a VALL-E a beszéd természetessége és a beszélők hasonlósága tekintetében jelentősen felülmúlja a legmodernebb zero-shot TTS rendszert. Ezenkívül úgy találtuk, hogy a VALL-E meg tudja őrizni a hangszóró érzelmét és az akusztikus felszólítás akusztikus környezetét a szintézis során.
Talán tetszene…
Mi várható a Google-tól 2023-ban
Mi várható a Microsofttól 2023-ban
Mi várható az Apple-től 2023-ban: AR, Mac Pro és iPhone 15
Miért bízunk az újságírásunkban?
A 2004-ben alapított Trusted Reviews célja, hogy olvasóinknak alapos, elfogulatlan és független tanácsokat adjon a vásárlással kapcsolatban.
Ma havonta több millió felhasználónk van a világ minden tájáról, és évente több mint 1000 terméket értékelünk.