Программа искусственного интеллекта Microsoft может клонировать ваш голос из 3-секундного аудиоклипа

Аватар пользователя oracle

Технология, хотя и впечатляющая, позволит киберпреступникам легко клонировать голоса людей в целях мошенничества и мошенничества с идентификацией.

Новое усовершенствование искусственного интеллекта от Microsoft может клонировать ваш голос, услышав, как вы говорите всего 3 секунды. 

Программа под названием ВАЛЛ-Э, был разработан для синтеза речи. Команда исследователей из Microsoft создала его, заставив систему прослушать 60 000 часов аудиокниг на английском языке от более чем 7000 разных носителей, чтобы заставить ее воспроизводить человеческую речь. Этот образец в сотни раз больше, чем тот, на котором построены другие программы преобразования текста в речь.

Команда Microsoft опубликовала веб- сайт который включает в себя несколько демонстраций VALL-E в действии. Как вы можете слышать, программа ИИ может не только клонировать чей-то голос, используя 3-секундный аудиоклип, но и манипулировать клонированным голосом, чтобы сказать все, что угодно. Кроме того, программа может воспроизводить эмоции в голосе человека или настраиваться на разные стили речи.

Клонирование голоса не является чем-то новым. Но подход Microsoft отличается тем, что позволяет легко воспроизвести чей-либо голос с помощью всего лишь короткого фрагмента аудиоданных. Следовательно, нетрудно представить, что одна и та же технология подпитывает киберпреступность, которую команда Microsoft признает потенциальной угрозой.  

«Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, она может нести потенциальные риски при неправильном использовании модели, например, подмена голосовой идентификации или выдача себя за конкретного говорящего», — пишут исследователи в своей статье. Тем не менее, команда отмечает, что возможно создать программы, которые могут «различать, был ли аудиоклип синтезирован VALL-E».

VALL-E интерпретирует звуковую речь как «дискретные токены», а затем воспроизводит токен, чтобы говорить с другим текстом. «VALL-E генерирует соответствующие акустические токены на основе акустических токенов 3-секундной зарегистрированной записи», — написали исследователи. «Наконец, сгенерированные акустические токены используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека».

Однако технология далека от совершенства. В своем исследовательском документе команда Microsoft отмечает, что VALL-E иногда может с трудом или не может произносить определенные слова. В других случаях слова могут звучать булькающими, искусственно синтезированными, роботизированными или просто тонально искаженными.

 

Авторство: 
Копия чужих материалов
Комментарий автора: 

Теперь Байдену можно только губами шевелить

 

Комментарии

Аватар пользователя RealDiamond
RealDiamond(8 лет 9 месяцев)

Теперь Байдену можно только губами шевелить

Байдену можно просто в гробу лежать отдыхать на даче. Остальное нарисуют, расшевелят и озвучат:)

Аватар пользователя ZloyРусский
ZloyРусский(5 лет 5 месяцев)

Теперь Байдену можно только губами шевелить

Вован и Лексус уже тестируют. У губеров и мэров заранее очко жимкует. 

Аватар пользователя Abram Gutang

Моей тёте позвонила её сестра и истинно своим голосов выпросила у неё 650 000 р.

Разумеется, что настоящая сестра не звонила. Но голос был от настоящей, вплоть до интонаций и причмокивания от выбитого переднего зуба.

Аватар пользователя Mike1975
Mike1975(5 лет 7 месяцев)

Это к инициативам Грефа и Сбера с голосовым подтверждением - идиоты.

Аватар пользователя Мадж
Мадж(7 лет 11 месяцев)

"Приятный сюрприз ожидает поклонников таланта Филиппа Киркорова!
 Теперь на концертах они не только услышат фонограмму,
но и увидят великолепное чучело певца!"(ц)

Аватар пользователя Mike1975
Mike1975(5 лет 7 месяцев)

Да что там Киркоров - Бернес споёт "Встанем" с Шаманом.

Аватар пользователя knave2000
knave2000(9 лет 4 месяца)

Брехня.

Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

А украинскою могёт?

Аватар пользователя mumpster
mumpster(5 лет 6 месяцев)

паляныця

Комментарий администрации:  
*** Уличен в пустословии и клевете ***
Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

призвище

Аватар пользователя mumpster
mumpster(5 лет 6 месяцев)

это слишком просто. а ну, хлопчик, скажи остановка по хихляцкм

Комментарий администрации:  
*** Уличен в пустословии и клевете ***
Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

не зупыняюсь на шляху...

Аватар пользователя mumpster
mumpster(5 лет 6 месяцев)

добре! бачю що ты не москалик, трымай пырижок с полуныцэй!

Комментарий администрации:  
*** Уличен в пустословии и клевете ***
Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

пырукарня!

Аватар пользователя mumpster
mumpster(5 лет 6 месяцев)

перукарня жЫ! не обманешь! плавали-знаем! "Обережно! Наступна станьция Пионерьска" (переименовали вроде)

 

кстати, я ту с удивлением обнаружил что Университет" и прочие арсеналы - глубже Белорусской в Мск и Площади Ленина в Питере

Комментарий администрации:  
*** Уличен в пустословии и клевете ***
Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

Врага всегда ждали с запада, вот и углубляли, считая видимо что первыми попадут под удар, а может из за особенностей каких, а враг он вон там на месте и образовался.

Аватар пользователя mumpster
mumpster(5 лет 6 месяцев)

нет, тут всё проще - топография местности. Киев стоял на 7 холмах изначально - вот Арсенал и был в середине 1 от реки холма.

там высоты - огого!

Комментарий администрации:  
*** Уличен в пустословии и клевете ***
Аватар пользователя стрелок
стрелок(2 года 3 месяца)

Какой простор для реализации фантазий открыла Майкрософт. Несчастные негры станут гораздо счастливее. Опустить белых пиндосов по телефону это путь к самореализации каждого негра.

Аватар пользователя Levaifan
Levaifan(2 года 3 месяца)

Пусть оно сначала  "поляниця" скажет...

Аватар пользователя Abram Gutang

Пусть оно сначала  "поляниця" скажет...

А в чём там фокус с этой "поляниця"?

 

Аватар пользователя MMirex
MMirex(12 лет 6 месяцев)

В том, москалику, шо не правильно ты гутаришь!

Аватар пользователя senbonzakura
senbonzakura(6 лет 3 месяца)

Раздолье для телефонных мошенников с Украины

Аватар пользователя Вов
Вов(6 лет 8 месяцев)

Эта песенка стара, обосрать её пора

 Старая ж тема. Давно её муслякают.

З.Ы. Вот на вскидку

https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11

 

https://trashbox.ru/link/programmy-dlya-izmeneniya-golosa

 

https://www.sravni.ru/text/programm-dlya-izmeneniya-golosa/

Аватар пользователя Петербуржец
Петербуржец(2 года 4 месяца)

Хорошо, разработали.

Но вот вопрос - для какой итоговой цели создавалась данная программа?

У меня, кроме манипуляций и обмана, ничего в голову не приходит.

Аватар пользователя BQQ
BQQ(11 лет 3 месяца)

Ребята, вы простите меня, но это - <самоцензура>.

=========

В реальности сейчас одна из точек роста в синтезе речи - борьба за уменьшение требуемого объема речи целевого диктора для успешного синтеза его речи.

Но про три секунды - это сказка.

Явление Природы состоит в том, что человек обычно говорит со скоростью примерно 25 фонем в секунду. То есть за три секунды он произнесет примерно 75 фонем. Ладно, я не мелочен - пусть у нас есть 100 фонем, произнесенных голосом целевого диктора.

Это будут самые частотные фонемы, причем в самых часто встречающихся сочетаниях (а переходные участки несут в себе заметную часть индивидуальности диктора).

=========

Итого в результате - Мелкомягкие научились воспроизводить голос целевого диктора, будучи с ним практически не знакомы.

И это я еще рассуждал только о воспроизведении характерных особенностей произношения фонем. А есть еще и индивидуальные особенности формирования интонационного контура, которые за три  секунды просто не проявляются. Три секунды - грубо говоря, одна фраза.

Вот мы имеем образец одной фразы. Например, повествоательной. А как будет у этого диктора звучать вопросительная фраза?

==========

Я не обвиняю автора или Мелкомягких в прямой лжи, они просто недоговаривают. Обычно в аналогичных случаях авторы в своих статьях недоговаривают о наличии каких-либо ограничений.

Я, например, легко могу поверить в то, что после изучения трех секунд речи можно синтезировать фразу "меня нет дома", сказанную без выраженных эмоций. Или фразу "Нет, никогда!" - если в трех секундах был образец восклицания.

Аватар пользователя БК 0010
БК 0010(6 лет 9 месяцев)

smile9.gif

Аватар пользователя Heisen Bug
Heisen Bug(1 год 7 месяцев)

Умеют Майки в маркетинг ну и барыжить(скупать технологии)

Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).

https://xakep.ru/2023/01/12/vall-e/
https://arxiv.org/pdf/2301.02111.pdf

OpenAI разработки:
- В 2020 году OpenAI анонсировала GPT-3 — языковую модель, обученную на триллионах слов из Интернета.
- В 2021 году OpenAI представила DALL-E , модель глубокого обучения, которая может генерировать цифровые изображения из описаний на естественном языке.
- В декабре 2022 г. запуск ChatGPT, чат -бот с искусственным интеллектом, основанного на GPT-3.5 (GPT-4 d 2023 г.)  Модели были обучены в сотрудничестве с Microsoft на их суперкомпьютерной инфраструктуре Azure.

Предистория:
OpenAI — это исследовательская лаборатория искусственного интеллекта (ИИ).
Организация была основана в Сан-Франциско в конце 2015 года Сэмом Альтманом , Илоном Маском и др.($1 млрд вложений)
Открытая компания, работающая на благо общества, а не государства или корпорации.
Маск вышел из совета директоров в феврале 2018г.(конфликт интересов - Tesla AI)
Microsoft крупнейший инвестор и партнер OpenAI.(2019г. $1 млрд вложений)
В 2019 году OpenAI перешел из некоммерческой организации в коммерческую.
2022г. Microsoft вместе с несколькими венчурными фирмами ведёт переговоры об инвестировании $10 млрд в OpenAI.
В результате сделки Microsoft будет получать 75% прибыли OpenAI до тех пор, пока не окупит свои инвестиции,
после чего Microsoft будет принадлежать 49% акций компании.
Ещё 49% получат другие инвесторы, а некоммерческая материнская компания OpenAI будет владеть 2%.

https://en.wikipedia.org/wiki/OpenAI
https://en.wikipedia.org/wiki/GPT-3
https://en.wikipedia.org/wiki/Language_model
https://en.wikipedia.org/wiki/ChatGPT