Kuuntele Microsoftin uutta puheälyä, joka jäljittelee ääntäsi kolmen sekunnin äänentoistosta
Microsoft on paljastanut työkalun, joka voi simuloida ihmisen ääntä ja puhetta, kun sille annetaan vain kolme sekuntia näyteääntä sen perustamiseksi.
VALL-E-työkalu on luonnollinen koodekkikielimalli, tutkijat sanovat, ja sitä voidaan käyttää puheen syntetisoimiseen. Ajatuksena on parantaa tekstistä puheeksi -ominaisuuksia ja saada se kuulostamaan hieman luonnollisemmalta.
Virgin Median laajakaistasopimus
Osana talvimyyntiä saat Virgin Medialta huikean 516 Mbps: n keskimääräisen latausnopeuden hintaan 33 puntaa kuukaudessa. Sopimus on voimassa 18 kuukautta ja asennusmaksu on 9,99 puntaa, mutta näin suurille nopeuksille tämä on ihanteellinen ostos suurille kotitalouksille.
- Virgin Media
- Keskinopeus 516 Mbps
- 33 €/kk
Jonkin sisällä postaus GitHubissa, Microsoft sanoo, että jopa erittäin rajoitetulla puhenäytteellä työkalu pystyy säilyttämään äänen aitouden ja tunteen.
Olipa puhuja vihainen, huvittunut, inhottu tai uninen, VALL-E voi pitää tunteen yllä, kun se simuloi ääntä. Se ei ole vielä täydellinen, kaukana siitä, ja näyttää olevan ongelmia joidenkin vahvempien aksenttien kanssa, mutta kaiken kaikkiaan se on melko vaikuttava konseptin todisteeksi.
Yritys koulutti työkalun Metan luomalla teknologialla. LibriLight-työkalussa on 60 000 tuntia englanninkielistä puhetta 7 000 puhujalta. Meta loi tekniikan yrittääkseen täyttää aukot äänipuheluissa, kun signaali on heikko, mutta Microsoftilla on muita tavoitteita.
Kuten kaikessa tekoälyyn liittyvässä asiassa, pelätään, että tekniikkaa voidaan käyttää väärin, jotta se näyttäisi siltä kuin joku olisi sanonut jotain, mitä hän ei ole sanonut. Olemme jo kokeneet tämän videon syväväärennöksissä.
Jos tekniikkaa kuitenkin käytetään oikeista syistä, se voi auttaa äänensä menettäneitä kommunikoimaan toisten kanssa uudelleen omassa puheessaan.
Et voi vielä kokeilla sitä itse, mutta Microsoft on tehnyt sen julkaisi paljon näytteitä (kautta Ars Technica) esittelee tekniikkaa.
Microsoft sanoo kokeita selittävässä viestissä: "VALL-E: stä tulee kontekstin sisäisiä oppimisominaisuuksia ja sitä voidaan käyttää syntetisoi korkealaatuista henkilökohtaista puhetta vain 3 sekunnin rekisteröidyllä nauhoitteella näkymätön puhujasta akustisena kehote. Kokeilutulokset osoittavat, että VALL-E on huomattavasti parempi kuin huipputekninen zero-shot TTS -järjestelmä puheen luonnollisuuden ja puhujien samankaltaisuuden suhteen. Lisäksi havaitsemme, että VALL-E voi säilyttää kaiuttimen tunteen ja akustisen kehotteen akustisen ympäristön synteesissä."
Saatat tykätä…
Mitä odottaa Googlelta vuonna 2023
Mitä odottaa Microsoftilta vuonna 2023
Mitä odottaa Applelta vuonna 2023: AR, Mac Pro ja iPhone 15
Miksi luottaa journalismiin?
Vuonna 2004 perustettu Trusted Reviews on tarjota lukijoillemme perusteellisia, puolueettomia ja riippumattomia neuvoja siitä, mitä ostaa.
Nykyään meillä on miljoonia käyttäjiä kuukaudessa eri puolilta maailmaa, ja arvioimme yli 1 000 tuotetta vuodessa.