Слушайте новия изкуствен интелект на речта на Microsoft, който имитира гласа ви от 3 секунди аудио
Microsoft разкри инструмент, който може да симулира гласа и речта на човек, когато му бъдат дадени само три секунди примерен звук, за да го базира.
Инструментът VALL-E е естествен езиков модел на кодек, казват изследователите, и може да се използва за синтезиране на реч. Идеята е да се подобрят възможностите за преобразуване на текст в реч и да се направи звукът малко по-естествен.
Сделка за широколентов достъп на Virgin Media
Като част от неговата зимна разпродажба, можете да получите огромна средна скорост на изтегляне от 516Mbps за £33 на месец от Virgin Media. Договорът продължава 18 месеца и има такса за инсталиране от £9,99, но за толкова високи скорости това е идеална покупка за големи домакинства.
- Virgin Media
- 516Mbps средна скорост
- £33/месец
В публикувайте в GitHub, Microsoft казва, че дори и с много ограничената извадка от реч, инструментът е способен да поддържа автентичността и емоцията в гласа.
Независимо дали говорещият е ядосан, развеселен, отвратен или сънен, VALL-E може да има поп при поддържане на емоцията, когато симулира гласа. Все още не е перфектен, далеч от това, и изглежда има проблеми с някои от по-силните акценти, но като цяло е доста впечатляващ за доказателство за концепцията.
Компанията обучи инструмента, използвайки технология, създадена от Meta. Инструментът LibriLight разполага с 60 000 часа реч на английски език от 7000 говорещи. Meta създаде технологията, за да се опита да запълни празнините при аудио разговори, когато сигналът е лош, но Microsoft има други цели.
Както при всичко, свързано с ИИ, ще има опасения, че технологията може да бъде злоупотребена, за да изглежда така, сякаш някой е казал нещо, което не е. Това е нещо, което вече сме изпитали с видео deepfakes.
Въпреки това, ако технологията се използва по правилните причини, тя може да помогне на хората, които са загубили гласа си, да общуват отново с другите със собствената си реч.
Все още не можете да го изпробвате сами, но Microsoft го направи пусна много проби (чрез Ars Technica), демонстрирайки технологията.
В публикация, обясняваща изпитанията, Microsoft казва: „VALL-E се появява в контекстни възможности за обучение и може да се използва за синтезирайте висококачествена персонализирана реч само с 3-секунден регистриран запис на невидян високоговорител като акустичен подкана. Резултатите от експеримента показват, че VALL-E значително превъзхожда най-съвременната TTS система с нулев удар по отношение на естествеността на речта и сходството на говорещите. Освен това откриваме, че VALL-E може да запази емоцията на говорещия и акустичната среда на акустичния сигнал в синтез.“
Може да ви хареса...
Какво да очакваме от Google през 2023 г
Какво да очакваме от Microsoft през 2023 г
Какво да очакваме от Apple през 2023 г.: AR, Mac Pro и iPhone 15
Защо да вярваме на нашата журналистика?
Основана през 2004 г., Trusted Reviews съществува, за да даде на нашите читатели задълбочени, безпристрастни и независими съвети какво да купят.
Днес имаме милиони потребители на месец от цял свят и оценяваме повече от 1000 продукта годишно.