Kuuntele Microsoftin uutta puheälyä, joka jäljittelee ääntäsi kolmen sekunnin äänentoistosta

Microsoft on paljastanut työkalun, joka voi simuloida ihmisen ääntä ja puhetta, kun sille annetaan vain kolme sekuntia näyteääntä sen perustamiseksi.

VALL-E-työkalu on luonnollinen koodekkikielimalli, tutkijat sanovat, ja sitä voidaan käyttää puheen syntetisoimiseen. Ajatuksena on parantaa tekstistä puheeksi -ominaisuuksia ja saada se kuulostamaan hieman luonnollisemmalta.

Virgin Median laajakaistasopimus

Osana talvimyyntiä saat Virgin Medialta huikean 516 Mbps: n keskimääräisen latausnopeuden hintaan 33 puntaa kuukaudessa. Sopimus on voimassa 18 kuukautta ja asennusmaksu on 9,99 puntaa, mutta näin suurille nopeuksille tämä on ihanteellinen ostos suurille kotitalouksille.

Virgin Media
Keskinopeus 516 Mbps
33 €/kk

Näytä tarjous

Jonkin sisällä postaus GitHubissa, Microsoft sanoo, että jopa erittäin rajoitetulla puhenäytteellä työkalu pystyy säilyttämään äänen aitouden ja tunteen.

Olipa puhuja vihainen, huvittunut, inhottu tai uninen, VALL-E voi pitää tunteen yllä, kun se simuloi ääntä. Se ei ole vielä täydellinen, kaukana siitä, ja näyttää olevan ongelmia joidenkin vahvempien aksenttien kanssa, mutta kaiken kaikkiaan se on melko vaikuttava konseptin todisteeksi.

instagram viewer

Yritys koulutti työkalun Metan luomalla teknologialla. LibriLight-työkalussa on 60 000 tuntia englanninkielistä puhetta 7 000 puhujalta. Meta loi tekniikan yrittääkseen täyttää aukot äänipuheluissa, kun signaali on heikko, mutta Microsoftilla on muita tavoitteita.

VALL-E Yleiskatsaus — Kuvan luotto: Microsoft

Kuten kaikessa tekoälyyn liittyvässä asiassa, pelätään, että tekniikkaa voidaan käyttää väärin, jotta se näyttäisi siltä kuin joku olisi sanonut jotain, mitä hän ei ole sanonut. Olemme jo kokeneet tämän videon syväväärennöksissä.

Jos tekniikkaa kuitenkin käytetään oikeista syistä, se voi auttaa äänensä menettäneitä kommunikoimaan toisten kanssa uudelleen omassa puheessaan.

Et voi vielä kokeilla sitä itse, mutta Microsoft on tehnyt sen julkaisi paljon näytteitä (kautta Ars Technica) esittelee tekniikkaa.

Microsoft sanoo kokeita selittävässä viestissä: "VALL-E: stä tulee kontekstin sisäisiä oppimisominaisuuksia ja sitä voidaan käyttää syntetisoi korkealaatuista henkilökohtaista puhetta vain 3 sekunnin rekisteröidyllä nauhoitteella näkymätön puhujasta akustisena kehote. Kokeilutulokset osoittavat, että VALL-E on huomattavasti parempi kuin huipputekninen zero-shot TTS -järjestelmä puheen luonnollisuuden ja puhujien samankaltaisuuden suhteen. Lisäksi havaitsemme, että VALL-E voi säilyttää kaiuttimen tunteen ja akustisen kehotteen akustisen ympäristön synteesissä."