Lyt til Microsofts nye tale-AI, der efterligner din stemme fra 3 sekunders lyd
Microsoft har afsløret et værktøj, der kan simulere en persons stemme og tale, når der kun gives tre sekunders prøvelyd til at basere det på.
VALL-E-værktøjet er en naturlig codec-sprogmodel, siger forskerne, og kan bruges til at syntetisere tale. Ideen er at forbedre tekst-til-tale-funktionerne og få det til at lyde lidt mere naturligt.
![Virgin Media Bredbåndsaftale](/f/01d0a18db7e4319b7d69c2bde924ce25.png)
Virgin Media Bredbåndsaftale
Som en del af dets vinterudsalg kan du få en gennemsnitlig downloadhastighed på 516 Mbps for £33 om måneden fra Virgin Media. Kontrakten varer i 18 måneder, og der er et installationsgebyr på £9,99, men for så høje hastigheder er dette et ideelt køb for store husholdninger.
- Virgin Media
- Gennemsnitshastigheder på 516 Mbps
- £33/måned
I en indlæg på GitHub, siger Microsoft, selv med den meget begrænsede taleprøve, er værktøjet i stand til at bevare autenticiteten og følelserne i stemmen.
Uanset om højttaleren er vred, moret, væmmet eller søvnig, kan VALL-E have en pop på at bevare følelserne, når den simulerer stemmen. Det er ikke perfekt endnu, langt fra, og ser ud til at have problemer med nogle af de stærkere accenter, men alt i alt er det ret imponerende for et proof of concept.
Virksomheden trænede værktøjet ved hjælp af teknologi skabt af Meta. LibriLight-værktøjet har 60.000 timers engelsksproget tale fra 7.000 talere. Meta skabte teknologien til at forsøge at udfylde hullerne på lydopkald, når signalet er dårligt, men Microsoft har andre mål i tankerne.
![VAL-E Oversigt](/f/7783bc7f7e848a647f2b0f52ead73a26.jpg)
Som med alt AI-relateret, vil der være frygt for, at teknologien kan blive misbrugt til at få det til at se ud, som om nogen har sagt noget, de ikke har. Dette er noget, vi allerede har oplevet med videodeepfakes.
Men hvis teknologien bruges af de rigtige årsager, kan den hjælpe folk, der har mistet stemmen, med at kommunikere med andre igen i deres egen tale.
Du kan ikke prøve det selv endnu, men det har Microsoft udgivet en masse prøver (via Ars Technica) fremviser teknologien.
I et indlæg, der forklarer forsøgene, siger Microsoft: "VALL-E dukker op i kontekstindlæringsevner og kan bruges til at syntetisere højkvalitets personlig tale med kun en 3-sekunders registreret optagelse af en uset højttaler som en akustisk hurtig. Eksperimentresultater viser, at VALL-E markant overgår det avancerede zero-shot TTS-system med hensyn til talenaturlighed og højttalerlighed. Derudover finder vi ud af, at VALL-E kunne bevare højttalerens følelser og akustiske miljø af den akustiske prompt i syntese."
Du kan lide…
![Hvad kan man forvente af Google i 2023](/f/be456d1453898d9813c85f3841af4916.png)
Hvad kan man forvente af Google i 2023
![Hvad kan man forvente af Microsoft i 2023](/f/b232b3292ee42b3737ade65fabe8f1c0.png)
Hvad kan man forvente af Microsoft i 2023
![Hvad kan man forvente af Apple i 2023: AR, Mac Pro og iPhone 15](/f/8c7109825b427439331f9e6eb873d51a.png)
Hvad kan man forvente af Apple i 2023: AR, Mac Pro og iPhone 15
Hvorfor stole på vores journalistik?
Trusted Reviews blev grundlagt i 2004 og eksisterer for at give vores læsere en grundig, objektiv og uafhængig rådgivning om, hvad de skal købe.
I dag har vi millioner af brugere om måneden fra hele verden og vurderer mere end 1.000 produkter om året.