Искусственный интеллект Microsoft VALL-E может имитировать любой человеческий голос, послушав оригинал всего три секунды

Аватар пользователя erdn

Сохраняется тембр и эмоциональный окрас

Компания Microsoft представила искусственный интеллект VALL-E, который способен имитировать любой человеческий голос на основе примера длительностью всего в три секунды. При этом голос имитируется очень достоверно, с сохранением как тембра, так и эмоциональной окраски оригинала. 

Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка опирается на технологии EnCodec. В отличие от других методов преобразования текста, которые зачастую синтезируют речь, манипулируя формами сигналов, разработка Microsoft в основном анализирует, как именно звучит человек, разбивает эту информацию на отдельные «токены» и использует обучающие данные, чтобы сопоставить свои «знания» о том, как этот голос будет звучать, если ИИ произнесёт другие фразы.  

Схема работы.

VALL-E обучали на библиотеке LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. 

Google показала свой ИИ Duplex, который тоже может говорить практически неотличимо от человека, ещё в 2018 году, но суть разработки Microsoft не в самом ИИ, а именно в его способности имитировать разные голоса. 

На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий. 

 

Авторство: 
Копия чужих материалов
Комментарий автора: 

Помнится, был отечественный фильм "Вторжение" по данной теме. Уже здесь.

Комментарии

Аватар пользователя Сергей Сущенко
Сергей Сущенко(5 лет 10 месяцев)

Это щас привет Соловьёву прочитал? Когда они нам давно дохлого Коломойшу на пару с Гордоном впаривали. 

Аватар пользователя Петербуржец
Петербуржец(3 года 11 месяцев)
Аватар пользователя alexsword
alexsword(14 лет 4 месяца)

да, баян, сворачиваю

Аватар пользователя erdn
erdn(12 лет 3 месяца)

Добрый вечер! Прошу пардону. Поиском не смог найти по сайту, видимо, по рассеянности.

Аватар пользователя genri-lezin
genri-lezin(8 лет 8 месяцев)

Такие синтезаторы должны содержать в своих программах  трудно обнаруживаемые секретные  метки, свидетельствующие о том, что данная речь искусственная.

Аватар пользователя erdn
erdn(12 лет 3 месяца)

В мирное время -- наверное. А при военной операции -- скорее всего, никаких меток.

См. новость про то, что наше Минобороны предупредило о том, что НАТО использует подставные БС уже для разных целей, в т.ч., дезинформации.

Осталось сложить два и два.

Аватар пользователя Хмурый ослик
Хмурый ослик(10 лет 5 месяцев)

Почему они все, упорно, называют ЭТО "искусственным интеллектом"??????

Комментарий администрации:  
*** отключен (систематические манипуляции и набросы) ***
Аватар пользователя erdn
erdn(12 лет 3 месяца)

Добрый день!

Видимо, потому-что на настоящий ИИ забили болт, или он остался только как военная тема, т.е., не публичен. А вообще да, термин некорректен.

Аватар пользователя Хмурый ослик
Хмурый ослик(10 лет 5 месяцев)

Было ужЕ, как минимум, три волны возбуждения интереса к ИИ.
Но тогда, хотя бы как-то пытались модельки построить, чтобы скопировать (хотя бы функционально), как оно действительно в черепушках "работает"...
А теперь - всё к статистике свелось с системами линейных уравнений!

А, потом, как и физики, эти господа будут призывать нас "просто поверить, что оно работает"...

Интересно, а куда подевались системы машинного перевода, основанные на построении семантических сетей, которые показывали очень даже приличные (даже - для сегодняшнего дня!) результаты? И это - на ТОЙ технике, между прочим...
Я последнюю книгу (на русском) с их упоминанием, где-то за середину-конец 1970-х встретил...
Может, и - правда, вояки и спецслужбы всё себе забрали и загрифовали?

Комментарий администрации:  
*** отключен (систематические манипуляции и набросы) ***