Slušajte Microsoftov novi govorni AI koji oponaša vaš glas iz 3 sekunde zvuka
Microsoft je otkrio alat koji može simulirati nečiji glas i govor kada mu se daju samo tri sekunde uzorka audio zapisa.
Alat VALL-E prirodni je jezični model kodeka, kažu istraživači, i može se koristiti za sintezu govora. Ideja je poboljšati mogućnosti pretvaranja teksta u govor i učiniti da zvuči malo prirodnije.
![Širokopojasni ugovor Virgin Media](/f/01d0a18db7e4319b7d69c2bde924ce25.png)
Širokopojasni ugovor Virgin Media
Kao dio zimske rasprodaje, od Virgin Media možete dobiti nevjerojatnih 516Mbps prosječne brzine preuzimanja za £33 mjesečno. Ugovor traje 18 mjeseci i postoji naknada za instalaciju od £9,99, ali za tako velike brzine ovo je idealna kupnja za velika kućanstva.
- Virgin Media
- Prosječna brzina 516Mbps
- £33/mjesečno
U objavite na GitHubu, Microsoft kaže da čak i s vrlo ograničenim uzorkom govora, alat može zadržati autentičnost i emocije u glasu.
Bez obzira na to je li govornik ljut, zabavljen, zgrožen ili pospan, VALL-E može uspjeti zadržati emocije kada simulira glas. Još nije savršen, daleko od toga, i čini se da ima problema s nekim od jačih naglasaka, ali sve u svemu prilično je impresivan za dokaz koncepta.
Tvrtka je osposobila alat pomoću tehnologije koju je stvorila Meta. Alat LibriLight ima 60.000 sati govora engleskog jezika od 7.000 govornika. Meta je stvorila tehnologiju kako bi pokušala popuniti praznine u audio pozivima kada je signal loš, ali Microsoft ima druge ciljeve na umu.
![Pregled VALL-E](/f/7783bc7f7e848a647f2b0f52ead73a26.jpg)
Kao i sa svime što je povezano s umjetnom inteligencijom, postojat će strahovi da bi se tehnologija mogla zloupotrijebiti kako bi izgledalo kao da je netko rekao nešto što nije. To je nešto što smo već iskusili s videofakeovima.
Međutim, ako se tehnologija koristi iz pravih razloga, mogla bi pomoći ljudima koji su izgubili glas da ponovno komuniciraju s drugima vlastitim govorom.
Još ne možete isprobati sami, ali Microsoft jest izdao mnogo uzoraka (preko Ars Technica) prikazujući tehnologiju.
U postu koji objašnjava probe Microsoft kaže: "VALL-E se pojavljuje u mogućnostima učenja u kontekstu i može se koristiti za sintetizirati visokokvalitetni personalizirani govor sa samo 3 sekunde upisane snimke neviđenog govornika kao akustike potaknuti. Rezultati eksperimenta pokazuju da VALL-E značajno nadmašuje najsuvremeniji zero-shot TTS sustav u smislu prirodnosti govora i sličnosti govornika. Osim toga, nalazimo da bi VALL-E mogao sačuvati govornikovu emociju i akustično okruženje akustičnog poticaja u sintezi.”
Možda ti se svidi…
![Što očekivati od Googlea u 2023](/f/be456d1453898d9813c85f3841af4916.png)
Što očekivati od Googlea u 2023
![Što očekivati od Microsofta u 2023](/f/b232b3292ee42b3737ade65fabe8f1c0.png)
Što očekivati od Microsofta u 2023
![Što očekivati od Applea 2023.: AR, Mac Pro i iPhone 15](/f/8c7109825b427439331f9e6eb873d51a.png)
Što očekivati od Applea 2023.: AR, Mac Pro i iPhone 15
Zašto vjerovati našem novinarstvu?
Osnovan 2004., Trusted Reviews postoji kako bi našim čitateljima dao temeljite, nepristrane i neovisne savjete o tome što kupiti.
Danas imamo milijune korisnika mjesečno iz cijelog svijeta i procjenjujemo više od 1000 proizvoda godišnje.