Tech reviews and news

Lyssna på Microsofts nya tal-AI som härmar din röst från 3 sekunders ljud

click fraud protection

Microsoft har avslöjat ett verktyg som kan simulera en persons röst och tal när det bara ges tre sekunders provljud för att basera det.

VALL-E-verktyget är en naturlig codec-språkmodell, säger forskarna, och kan användas för att syntetisera tal. Tanken är att förbättra text-till-tal-kapaciteten och få det att låta lite mer naturligt.

Virgin Media Bredbandsaffär

Virgin Media Bredbandsaffär

Som en del av vinterrean kan du få en hel nedladdningshastighet på 516 Mbps för £33 per månad från Virgin Media. Kontraktet varar i 18 månader och det finns en installationsavgift på £9,99 men för så höga hastigheter är detta ett idealiskt köp för stora hushåll.

  • Virgin Media
  • 516 Mbps medelhastighet
  • £33/månad
Visa erbjudande

I en inlägg på GitHub, säger Microsoft, även med det mycket begränsade urvalet av tal, kan verktyget bibehålla äktheten och känslorna i rösten.

Oavsett om talaren är arg, road, äcklad eller sömnig kan VALL-E ha en pop på att behålla känslan när den simulerar rösten. Det är inte perfekt ännu, långt ifrån, och verkar ha problem med några av de starkare accenterna, men allt som allt är det ganska imponerande för ett proof of concept.

Företaget tränade verktyget med hjälp av teknik skapad av Meta. LibriLight-verktyget har 60 000 timmar engelskspråkigt tal från 7 000 talare. Meta skapade tekniken för att försöka fylla i luckorna i ljudsamtal när signalen är dålig, men Microsoft har andra mål i åtanke.

VAL-E Översikt
Bildkredit: Microsoft

Som med allt relaterat till AI kommer det att finnas farhågor om att tekniken kan missbrukas för att få det att se ut som om någon har sagt något de inte har sagt. Detta är något vi redan har upplevt med videodeepfakes.

Men om tekniken används av rätt anledningar kan den hjälpa människor som tappat rösten att kommunicera med andra igen i sitt eget tal.

Du kan inte prova det själv ännu, men Microsoft har släppt en massa prover (via Ars Technica) som visar upp tekniken.

I ett inlägg som förklarar försöken säger Microsoft: "VALL-E framträder inlärningsförmåga i sammanhang och kan användas för att syntetisera högkvalitativt personligt tal med bara en 3-sekunders registrerad inspelning av en osynlig högtalare som en akustisk prompt. Experimentresultat visar att VAL-E avsevärt överträffar det toppmoderna zero-shot TTS-systemet när det gäller talnaturlighet och talarlikhet. Dessutom finner vi att VALL-E kan bevara högtalarens känslor och akustiska miljö av den akustiska prompten i syntes."

Du kanske gillar…

Vad du kan förvänta dig av Google 2023

Vad du kan förvänta dig av Google 2023

Thomas Deehan2 veckor sedan
Vad du kan förvänta dig av Microsoft 2023

Vad du kan förvänta dig av Microsoft 2023

Ryan Jones2 veckor sedan
Vad du kan förvänta dig av Apple 2023: AR, Mac Pro och iPhone 15

Vad du kan förvänta dig av Apple 2023: AR, Mac Pro och iPhone 15

Max Parker2 veckor sedan

Varför lita på vår journalistik?

Trusted Reviews grundades 2004 och finns till för att ge våra läsare grundliga, opartiska och oberoende råd om vad de ska köpa.

Idag har vi miljontals användare i månaden från hela världen och bedömer mer än 1 000 produkter per år.

XGIMI Halo+ recension: Pico-förbättringar

XGIMI Halo+ recension: Pico-förbättringar

DomEn tweak till originalet, XGIMI Halo+ ger automatisk keystone-korrigering till festen, vilket ...

Läs Mer

Hur man skriver ut skärmen på en Mac

Hur man skriver ut skärmen på en Mac

Behöver du ta en skärmdump på din Mac? Vi har sammanställt den här guiden för att lära dig hur du...

Läs Mer

Så här ansluter du nya Switch-kontroller till din Nintendo Switch

Så här ansluter du nya Switch-kontroller till din Nintendo Switch

Här är det enklaste sättet att ansluta och använda nya Nintendo Switch-kontroller till din Ninten...

Läs Mer

insta story