Lyt til Microsofts nye tale-AI, der efterligner din stemme fra 3 sekunders lyd

Microsoft har afsløret et værktøj, der kan simulere en persons stemme og tale, når der kun gives tre sekunders prøvelyd til at basere det på.

VALL-E-værktøjet er en naturlig codec-sprogmodel, siger forskerne, og kan bruges til at syntetisere tale. Ideen er at forbedre tekst-til-tale-funktionerne og få det til at lyde lidt mere naturligt.

Virgin Media Bredbåndsaftale

Som en del af dets vinterudsalg kan du få en gennemsnitlig downloadhastighed på 516 Mbps for £33 om måneden fra Virgin Media. Kontrakten varer i 18 måneder, og der er et installationsgebyr på £9,99, men for så høje hastigheder er dette et ideelt køb for store husholdninger.

Virgin Media
Gennemsnitshastigheder på 516 Mbps
£33/måned

Se tilbud

I en indlæg på GitHub, siger Microsoft, selv med den meget begrænsede taleprøve, er værktøjet i stand til at bevare autenticiteten og følelserne i stemmen.

Uanset om højttaleren er vred, moret, væmmet eller søvnig, kan VALL-E have en pop på at bevare følelserne, når den simulerer stemmen. Det er ikke perfekt endnu, langt fra, og ser ud til at have problemer med nogle af de stærkere accenter, men alt i alt er det ret imponerende for et proof of concept.

instagram viewer

Virksomheden trænede værktøjet ved hjælp af teknologi skabt af Meta. LibriLight-værktøjet har 60.000 timers engelsksproget tale fra 7.000 talere. Meta skabte teknologien til at forsøge at udfylde hullerne på lydopkald, når signalet er dårligt, men Microsoft har andre mål i tankerne.

VAL-E Oversigt — Billedkredit: Microsoft

Som med alt AI-relateret, vil der være frygt for, at teknologien kan blive misbrugt til at få det til at se ud, som om nogen har sagt noget, de ikke har. Dette er noget, vi allerede har oplevet med videodeepfakes.

Men hvis teknologien bruges af de rigtige årsager, kan den hjælpe folk, der har mistet stemmen, med at kommunikere med andre igen i deres egen tale.

Du kan ikke prøve det selv endnu, men det har Microsoft udgivet en masse prøver (via Ars Technica) fremviser teknologien.

I et indlæg, der forklarer forsøgene, siger Microsoft: "VALL-E dukker op i kontekstindlæringsevner og kan bruges til at syntetisere højkvalitets personlig tale med kun en 3-sekunders registreret optagelse af en uset højttaler som en akustisk hurtig. Eksperimentresultater viser, at VALL-E markant overgår det avancerede zero-shot TTS-system med hensyn til talenaturlighed og højttalerlighed. Derudover finder vi ud af, at VALL-E kunne bevare højttalerens følelser og akustiske miljø af den akustiske prompt i syntese."