Tech reviews and news

Slušajte Microsoftov novi govorni AI koji oponaša vaš glas iz 3 sekunde zvuka

click fraud protection

Microsoft je otkrio alat koji može simulirati nečiji glas i govor kada mu se daju samo tri sekunde uzorka audio zapisa.

Alat VALL-E prirodni je jezični model kodeka, kažu istraživači, i može se koristiti za sintezu govora. Ideja je poboljšati mogućnosti pretvaranja teksta u govor i učiniti da zvuči malo prirodnije.

Širokopojasni ugovor Virgin Media

Širokopojasni ugovor Virgin Media

Kao dio zimske rasprodaje, od Virgin Media možete dobiti nevjerojatnih 516Mbps prosječne brzine preuzimanja za £33 mjesečno. Ugovor traje 18 mjeseci i postoji naknada za instalaciju od £9,99, ali za tako velike brzine ovo je idealna kupnja za velika kućanstva.

  • Virgin Media
  • Prosječna brzina 516Mbps
  • £33/mjesečno
Pogledajte ponudu

U objavite na GitHubu, Microsoft kaže da čak i s vrlo ograničenim uzorkom govora, alat može zadržati autentičnost i emocije u glasu.

Bez obzira na to je li govornik ljut, zabavljen, zgrožen ili pospan, VALL-E može uspjeti zadržati emocije kada simulira glas. Još nije savršen, daleko od toga, i čini se da ima problema s nekim od jačih naglasaka, ali sve u svemu prilično je impresivan za dokaz koncepta.

Tvrtka je osposobila alat pomoću tehnologije koju je stvorila Meta. Alat LibriLight ima 60.000 sati govora engleskog jezika od 7.000 govornika. Meta je stvorila tehnologiju kako bi pokušala popuniti praznine u audio pozivima kada je signal loš, ali Microsoft ima druge ciljeve na umu.

Pregled VALL-E
Autor slike: Microsoft

Kao i sa svime što je povezano s umjetnom inteligencijom, postojat će strahovi da bi se tehnologija mogla zloupotrijebiti kako bi izgledalo kao da je netko rekao nešto što nije. To je nešto što smo već iskusili s videofakeovima.

Međutim, ako se tehnologija koristi iz pravih razloga, mogla bi pomoći ljudima koji su izgubili glas da ponovno komuniciraju s drugima vlastitim govorom.

Još ne možete isprobati sami, ali Microsoft jest izdao mnogo uzoraka (preko Ars Technica) prikazujući tehnologiju.

U postu koji objašnjava probe Microsoft kaže: "VALL-E se pojavljuje u mogućnostima učenja u kontekstu i može se koristiti za sintetizirati visokokvalitetni personalizirani govor sa samo 3 sekunde upisane snimke neviđenog govornika kao akustike potaknuti. Rezultati eksperimenta pokazuju da VALL-E značajno nadmašuje najsuvremeniji zero-shot TTS sustav u smislu prirodnosti govora i sličnosti govornika. Osim toga, nalazimo da bi VALL-E mogao sačuvati govornikovu emociju i akustično okruženje akustičnog poticaja u sintezi.”

Možda ti se svidi…

Što očekivati ​​od Googlea u 2023

Što očekivati ​​od Googlea u 2023

Thomas DeehanPrije 2 tjedna
Što očekivati ​​od Microsofta u 2023

Što očekivati ​​od Microsofta u 2023

Ryan JonesPrije 2 tjedna
Što očekivati ​​od Applea 2023.: AR, Mac Pro i iPhone 15

Što očekivati ​​od Applea 2023.: AR, Mac Pro i iPhone 15

Max ParkerPrije 2 tjedna

Zašto vjerovati našem novinarstvu?

Osnovan 2004., Trusted Reviews postoji kako bi našim čitateljima dao temeljite, nepristrane i neovisne savjete o tome što kupiti.

Danas imamo milijune korisnika mjesečno iz cijelog svijeta i procjenjujemo više od 1000 proizvoda godišnje.

Što očekivati ​​od GoPro-a u 2023

Što očekivati ​​od GoPro-a u 2023

GoPro je ove godine objavio dvije kamere, preskočivši Max 2 u korist svoje vodeće linije Hero Bla...

Čitaj Više

Dobitnici i gubitnici 2022.: godina tehničkih trijumfa i neuspjeh Elona Muska

Dobitnici i gubitnici 2022.: godina tehničkih trijumfa i neuspjeh Elona Muska

Godina u tehnici je završila, a sada počinje iznova. Tijekom 2022. bilo je velikih trijumfa i eps...

Čitaj Više

Zvuk i slika: Što očekivati ​​od televizora i zvuka u 2023

Zvuk i slika: Što očekivati ​​od televizora i zvuka u 2023

Svake godine pokušavam nagađati što je na horizontu za dolazak na TV i audio. Neke pretpostavke s...

Čitaj Više

insta story