Tech reviews and news

Lyt til Microsofts nye tale-AI, der efterligner din stemme fra 3 sekunders lyd

click fraud protection

Microsoft har afsløret et værktøj, der kan simulere en persons stemme og tale, når der kun gives tre sekunders prøvelyd til at basere det på.

VALL-E-værktøjet er en naturlig codec-sprogmodel, siger forskerne, og kan bruges til at syntetisere tale. Ideen er at forbedre tekst-til-tale-funktionerne og få det til at lyde lidt mere naturligt.

Virgin Media Bredbåndsaftale

Virgin Media Bredbåndsaftale

Som en del af dets vinterudsalg kan du få en gennemsnitlig downloadhastighed på 516 Mbps for £33 om måneden fra Virgin Media. Kontrakten varer i 18 måneder, og der er et installationsgebyr på £9,99, men for så høje hastigheder er dette et ideelt køb for store husholdninger.

  • Virgin Media
  • Gennemsnitshastigheder på 516 Mbps
  • £33/måned
Se tilbud

I en indlæg på GitHub, siger Microsoft, selv med den meget begrænsede taleprøve, er værktøjet i stand til at bevare autenticiteten og følelserne i stemmen.

Uanset om højttaleren er vred, moret, væmmet eller søvnig, kan VALL-E have en pop på at bevare følelserne, når den simulerer stemmen. Det er ikke perfekt endnu, langt fra, og ser ud til at have problemer med nogle af de stærkere accenter, men alt i alt er det ret imponerende for et proof of concept.

Virksomheden trænede værktøjet ved hjælp af teknologi skabt af Meta. LibriLight-værktøjet har 60.000 timers engelsksproget tale fra 7.000 talere. Meta skabte teknologien til at forsøge at udfylde hullerne på lydopkald, når signalet er dårligt, men Microsoft har andre mål i tankerne.

VAL-E Oversigt
Billedkredit: Microsoft

Som med alt AI-relateret, vil der være frygt for, at teknologien kan blive misbrugt til at få det til at se ud, som om nogen har sagt noget, de ikke har. Dette er noget, vi allerede har oplevet med videodeepfakes.

Men hvis teknologien bruges af de rigtige årsager, kan den hjælpe folk, der har mistet stemmen, med at kommunikere med andre igen i deres egen tale.

Du kan ikke prøve det selv endnu, men det har Microsoft udgivet en masse prøver (via Ars Technica) fremviser teknologien.

I et indlæg, der forklarer forsøgene, siger Microsoft: "VALL-E dukker op i kontekstindlæringsevner og kan bruges til at syntetisere højkvalitets personlig tale med kun en 3-sekunders registreret optagelse af en uset højttaler som en akustisk hurtig. Eksperimentresultater viser, at VALL-E markant overgår det avancerede zero-shot TTS-system med hensyn til talenaturlighed og højttalerlighed. Derudover finder vi ud af, at VALL-E kunne bevare højttalerens følelser og akustiske miljø af den akustiske prompt i syntese."

Du kan lide…

Hvad kan man forvente af Google i 2023

Hvad kan man forvente af Google i 2023

Thomas Deehan2 uger siden
Hvad kan man forvente af Microsoft i 2023

Hvad kan man forvente af Microsoft i 2023

Ryan Jones2 uger siden
Hvad kan man forvente af Apple i 2023: AR, Mac Pro og iPhone 15

Hvad kan man forvente af Apple i 2023: AR, Mac Pro og iPhone 15

Max Parker2 uger siden

Hvorfor stole på vores journalistik?

Trusted Reviews blev grundlagt i 2004 og eksisterer for at give vores læsere en grundig, objektiv og uafhængig rådgivning om, hvad de skal købe.

I dag har vi millioner af brugere om måneden fra hele verden og vurderer mere end 1.000 produkter om året.

VOXIs hemmelige aftale på Galaxy A34 vil blæse dit sind

VOXIs hemmelige aftale på Galaxy A34 vil blæse dit sind

VOXI tilbyder et godt tilbud på Samsung Galaxy A34 lige nu, men det råber ikke om det.Klik på aft...

Læs Mere

Fairphone 5 anmeldelse: Første indtryk

Fairphone 5 anmeldelse: Første indtryk

FørstehåndsindtrykFairphone 5 er et skridt fremad i moderne udseende for de bæredygtighedsfokuser...

Læs Mere

Sidste chance for at få et Anker-telefonopladningsværk til en billig penge

Sidste chance for at få et Anker-telefonopladningsværk til en billig penge

Du har stadig tid til at gøre krav på denne fremragende aftale på et Anker bærbart kraftværk - me...

Læs Mere

insta story