Tech reviews and news

Klausykitės naujojo „Microsoft“ kalbos AI, kuris imituoja jūsų balsą iš 3 sekundžių garso

click fraud protection

„Microsoft“ atskleidė įrankį, kuris gali imituoti žmogaus balsą ir kalbą, kai jam suteikiamos tik trys sekundės garso pavyzdžio.

VALL-E įrankis yra natūralus kodeko kalbos modelis, teigia tyrimai ir gali būti naudojamas kalbai sintezuoti. Idėja yra pagerinti teksto į kalbą galimybes ir padaryti tai, kad jis skambėtų šiek tiek natūraliau.

„Virgin Media“ plačiajuosčio ryšio pasiūlymas

„Virgin Media“ plačiajuosčio ryšio pasiūlymas

Žiemos išpardavimo metu iš „Virgin Media“ galite gauti didžiulį 516 Mbps atsisiuntimo greitį už 33 GBP per mėnesį. Sutartis galioja 18 mėnesių ir yra 9,99 GBP įrengimo mokestis, tačiau esant tokiam dideliam greičiui, tai idealus pirkinys dideliems namų ūkiams.

  • Virgin Media
  • 516 Mbps vidutinis greitis
  • £33/mėn
Žiūrėti pasiūlymą

A įrašas GitHub, „Microsoft“ teigia, kad net esant labai ribotam kalbos pavyzdžiui, įrankis gali išlaikyti balso autentiškumą ir emocijas.

Nesvarbu, ar kalbėtojas piktas, linksmas, pasibjaurėjęs ar mieguistas, VALL-E gali puikiai išlaikyti emocijas, kai imituoja balsą. Jis dar nėra tobulas, toli gražu ne ir, atrodo, turi problemų su kai kuriais stipresniais akcentais, bet apskritai tai gana įspūdinga koncepcijos įrodymui.

Įmonė apmokė įrankį naudodama „Meta“ sukurtą technologiją. LibriLight įrankis turi 60 000 valandų anglų kalbos kalbos iš 7 000 kalbėtojų. „Meta“ sukūrė technologiją, siekdama užpildyti garso skambučių spragas, kai signalas yra prastas, tačiau „Microsoft“ turi kitų tikslų.

VALL-E apžvalga
Vaizdo kreditas: „Microsoft“.

Kaip ir bet kas susijęs su DI, bus baiminamasi, kad technologija gali būti piktnaudžiaujama, kad atrodytų, jog kažkas pasakė tai, ko nepasakė. Tai jau patyrėme su vaizdo įrašų klastotėmis.

Tačiau jei technologija naudojama dėl tinkamų priežasčių, ji gali padėti žmonėms, praradusiems balsą, vėl bendrauti su kitais savo kalba.

Dar negalite to išbandyti patys, bet „Microsoft“ tai padarė išleido daug pavyzdžių (per Ars Technica) pristato technologiją.

Straipsnyje, kuriame paaiškinami bandymai, „Microsoft“ sako: „VALL-E atsiranda mokymosi galimybių kontekste ir gali būti naudojamas sintezuokite aukštos kokybės suasmenintą kalbą naudodami tik 3 sekundžių trukmės nematyto kalbėtojo įrašą kaip akustinį paraginti. Eksperimento rezultatai rodo, kad VALL-E kalbos natūralumu ir garsiakalbių panašumu gerokai pranoksta moderniausią „zero-shot“ TTS sistemą. Be to, manome, kad VALL-E gali išsaugoti garsiakalbio emocijas ir akustinę aplinką sintezės metu.

Tau gali patikti…

Ko tikėtis iš „Google“ 2023 m

Ko tikėtis iš „Google“ 2023 m

Tomas Deehanasprieš 2 savaites
Ko tikėtis iš „Microsoft“ 2023 m

Ko tikėtis iš „Microsoft“ 2023 m

Ryanas Džounsasprieš 2 savaites
Ko tikėtis iš „Apple“ 2023 m.: AR, „Mac Pro“ ir „iPhone 15“.

Ko tikėtis iš „Apple“ 2023 m.: AR, „Mac Pro“ ir „iPhone 15“.

Maksas Parkerisprieš 2 savaites

Kam pasitikėti mūsų žurnalistika?

2004 m. įkurta „Trusted Reviews“ sukurta tam, kad skaitytojams pateiktų išsamius, nešališkus ir nepriklausomus patarimus, ką pirkti.

Šiandien turime milijonus vartotojų per mėnesį iš viso pasaulio ir per metus įvertiname daugiau nei 1000 produktų.

Švieži Xiaomi 12 Ultra atvaizdai suteikia mums geriausią išvaizdą

Švieži Xiaomi 12 Ultra atvaizdai suteikia mums geriausią išvaizdą

Nauji „Xiaomi 12 Ultra“ atvaizdai mums suteikė geriausią vaizdąbūsimas super flagmanas.Šie neofic...

Skaityti Daugiau

Kas yra tęstinumo kamera? Kaip naudoti „iPhone“ kaip „Mac“ internetinę kamerą

Kas yra tęstinumo kamera? Kaip naudoti „iPhone“ kaip „Mac“ internetinę kamerą

Ar pavargote nuo to, kad jūsų „MacBook“ internetinė kamera tiesiog nepateisina „iPhone“, sėdinčio...

Skaityti Daugiau

„iOS 16“ didelės užrakinimo ekrano funkcijos nėra „iPadOS 16“.

„iOS 16“ didelės užrakinimo ekrano funkcijos nėra „iPadOS 16“.

iPadOS 16atrodo, kad trūksta „iOS 16“ antraštės funkcijos „Užrakinimo ekrano pritaikymas“.„Apple“...

Skaityti Daugiau

insta story