Слушайте новия изкуствен интелект на речта на Microsoft, който имитира гласа ви от 3 секунди аудио

Microsoft разкри инструмент, който може да симулира гласа и речта на човек, когато му бъдат дадени само три секунди примерен звук, за да го базира.

Инструментът VALL-E е естествен езиков модел на кодек, казват изследователите, и може да се използва за синтезиране на реч. Идеята е да се подобрят възможностите за преобразуване на текст в реч и да се направи звукът малко по-естествен.

Сделка за широколентов достъп на Virgin Media

Като част от неговата зимна разпродажба, можете да получите огромна средна скорост на изтегляне от 516Mbps за £33 на месец от Virgin Media. Договорът продължава 18 месеца и има такса за инсталиране от £9,99, но за толкова високи скорости това е идеална покупка за големи домакинства.

Virgin Media
516Mbps средна скорост
£33/месец

Преглед на сделката

В публикувайте в GitHub, Microsoft казва, че дори и с много ограничената извадка от реч, инструментът е способен да поддържа автентичността и емоцията в гласа.

Независимо дали говорещият е ядосан, развеселен, отвратен или сънен, VALL-E може да има поп при поддържане на емоцията, когато симулира гласа. Все още не е перфектен, далеч от това, и изглежда има проблеми с някои от по-силните акценти, но като цяло е доста впечатляващ за доказателство за концепцията.

instagram viewer

Компанията обучи инструмента, използвайки технология, създадена от Meta. Инструментът LibriLight разполага с 60 000 часа реч на английски език от 7000 говорещи. Meta създаде технологията, за да се опита да запълни празнините при аудио разговори, когато сигналът е лош, но Microsoft има други цели.

Преглед на VALL-E — Кредит за изображение: Microsoft

Както при всичко, свързано с ИИ, ще има опасения, че технологията може да бъде злоупотребена, за да изглежда така, сякаш някой е казал нещо, което не е. Това е нещо, което вече сме изпитали с видео deepfakes.

Въпреки това, ако технологията се използва по правилните причини, тя може да помогне на хората, които са загубили гласа си, да общуват отново с другите със собствената си реч.

Все още не можете да го изпробвате сами, но Microsoft го направи пусна много проби (чрез Ars Technica), демонстрирайки технологията.

В публикация, обясняваща изпитанията, Microsoft казва: „VALL-E се появява в контекстни възможности за обучение и може да се използва за синтезирайте висококачествена персонализирана реч само с 3-секунден регистриран запис на невидян високоговорител като акустичен подкана. Резултатите от експеримента показват, че VALL-E значително превъзхожда най-съвременната TTS система с нулев удар по отношение на естествеността на речта и сходството на говорещите. Освен това откриваме, че VALL-E може да запази емоцията на говорещия и акустичната среда на акустичния сигнал в синтез.“