Lyssna på Microsofts nya tal-AI som härmar din röst från 3 sekunders ljud

Microsoft har avslöjat ett verktyg som kan simulera en persons röst och tal när det bara ges tre sekunders provljud för att basera det.

VALL-E-verktyget är en naturlig codec-språkmodell, säger forskarna, och kan användas för att syntetisera tal. Tanken är att förbättra text-till-tal-kapaciteten och få det att låta lite mer naturligt.

Virgin Media Bredbandsaffär

Som en del av vinterrean kan du få en hel nedladdningshastighet på 516 Mbps för £33 per månad från Virgin Media. Kontraktet varar i 18 månader och det finns en installationsavgift på £9,99 men för så höga hastigheter är detta ett idealiskt köp för stora hushåll.

Virgin Media
516 Mbps medelhastighet
£33/månad

Visa erbjudande

I en inlägg på GitHub, säger Microsoft, även med det mycket begränsade urvalet av tal, kan verktyget bibehålla äktheten och känslorna i rösten.

Oavsett om talaren är arg, road, äcklad eller sömnig kan VALL-E ha en pop på att behålla känslan när den simulerar rösten. Det är inte perfekt ännu, långt ifrån, och verkar ha problem med några av de starkare accenterna, men allt som allt är det ganska imponerande för ett proof of concept.

instagram viewer

Företaget tränade verktyget med hjälp av teknik skapad av Meta. LibriLight-verktyget har 60 000 timmar engelskspråkigt tal från 7 000 talare. Meta skapade tekniken för att försöka fylla i luckorna i ljudsamtal när signalen är dålig, men Microsoft har andra mål i åtanke.

Som med allt relaterat till AI kommer det att finnas farhågor om att tekniken kan missbrukas för att få det att se ut som om någon har sagt något de inte har sagt. Detta är något vi redan har upplevt med videodeepfakes.

Men om tekniken används av rätt anledningar kan den hjälpa människor som tappat rösten att kommunicera med andra igen i sitt eget tal.

Du kan inte prova det själv ännu, men Microsoft har släppt en massa prover (via Ars Technica) som visar upp tekniken.

I ett inlägg som förklarar försöken säger Microsoft: "VALL-E framträder inlärningsförmåga i sammanhang och kan användas för att syntetisera högkvalitativt personligt tal med bara en 3-sekunders registrerad inspelning av en osynlig högtalare som en akustisk prompt. Experimentresultat visar att VAL-E avsevärt överträffar det toppmoderna zero-shot TTS-systemet när det gäller talnaturlighet och talarlikhet. Dessutom finner vi att VALL-E kan bevara högtalarens känslor och akustiska miljö av den akustiska prompten i syntes."