Lyssna på Microsofts nya tal-AI som härmar din röst från 3 sekunders ljud
Microsoft har avslöjat ett verktyg som kan simulera en persons röst och tal när det bara ges tre sekunders provljud för att basera det.
VALL-E-verktyget är en naturlig codec-språkmodell, säger forskarna, och kan användas för att syntetisera tal. Tanken är att förbättra text-till-tal-kapaciteten och få det att låta lite mer naturligt.
![Virgin Media Bredbandsaffär](/f/01d0a18db7e4319b7d69c2bde924ce25.png)
Virgin Media Bredbandsaffär
Som en del av vinterrean kan du få en hel nedladdningshastighet på 516 Mbps för £33 per månad från Virgin Media. Kontraktet varar i 18 månader och det finns en installationsavgift på £9,99 men för så höga hastigheter är detta ett idealiskt köp för stora hushåll.
- Virgin Media
- 516 Mbps medelhastighet
- £33/månad
I en inlägg på GitHub, säger Microsoft, även med det mycket begränsade urvalet av tal, kan verktyget bibehålla äktheten och känslorna i rösten.
Oavsett om talaren är arg, road, äcklad eller sömnig kan VALL-E ha en pop på att behålla känslan när den simulerar rösten. Det är inte perfekt ännu, långt ifrån, och verkar ha problem med några av de starkare accenterna, men allt som allt är det ganska imponerande för ett proof of concept.
Företaget tränade verktyget med hjälp av teknik skapad av Meta. LibriLight-verktyget har 60 000 timmar engelskspråkigt tal från 7 000 talare. Meta skapade tekniken för att försöka fylla i luckorna i ljudsamtal när signalen är dålig, men Microsoft har andra mål i åtanke.
![VAL-E Översikt](/f/7783bc7f7e848a647f2b0f52ead73a26.jpg)
Som med allt relaterat till AI kommer det att finnas farhågor om att tekniken kan missbrukas för att få det att se ut som om någon har sagt något de inte har sagt. Detta är något vi redan har upplevt med videodeepfakes.
Men om tekniken används av rätt anledningar kan den hjälpa människor som tappat rösten att kommunicera med andra igen i sitt eget tal.
Du kan inte prova det själv ännu, men Microsoft har släppt en massa prover (via Ars Technica) som visar upp tekniken.
I ett inlägg som förklarar försöken säger Microsoft: "VALL-E framträder inlärningsförmåga i sammanhang och kan användas för att syntetisera högkvalitativt personligt tal med bara en 3-sekunders registrerad inspelning av en osynlig högtalare som en akustisk prompt. Experimentresultat visar att VAL-E avsevärt överträffar det toppmoderna zero-shot TTS-systemet när det gäller talnaturlighet och talarlikhet. Dessutom finner vi att VALL-E kan bevara högtalarens känslor och akustiska miljö av den akustiska prompten i syntes."
Du kanske gillar…
![Vad du kan förvänta dig av Google 2023](/f/be456d1453898d9813c85f3841af4916.png)
Vad du kan förvänta dig av Google 2023
![Vad du kan förvänta dig av Microsoft 2023](/f/b232b3292ee42b3737ade65fabe8f1c0.png)
Vad du kan förvänta dig av Microsoft 2023
![Vad du kan förvänta dig av Apple 2023: AR, Mac Pro och iPhone 15](/f/8c7109825b427439331f9e6eb873d51a.png)
Vad du kan förvänta dig av Apple 2023: AR, Mac Pro och iPhone 15
Varför lita på vår journalistik?
Trusted Reviews grundades 2004 och finns till för att ge våra läsare grundliga, opartiska och oberoende råd om vad de ska köpa.
Idag har vi miljontals användare i månaden från hela världen och bedömer mer än 1 000 produkter per år.