Технология, хотя и впечатляющая, позволит киберпреступникам легко клонировать голоса людей в целях мошенничества и мошенничества с идентификацией.
Новое усовершенствование искусственного интеллекта от Microsoft может клонировать ваш голос, услышав, как вы говорите всего 3 секунды.
Программа под названием ВАЛЛ-Э, был разработан для синтеза речи. Команда исследователей из Microsoft создала его, заставив систему прослушать 60 000 часов аудиокниг на английском языке от более чем 7000 разных носителей, чтобы заставить ее воспроизводить человеческую речь. Этот образец в сотни раз больше, чем тот, на котором построены другие программы преобразования текста в речь.
Команда Microsoft опубликовала веб- сайт который включает в себя несколько демонстраций VALL-E в действии. Как вы можете слышать, программа ИИ может не только клонировать чей-то голос, используя 3-секундный аудиоклип, но и манипулировать клонированным голосом, чтобы сказать все, что угодно. Кроме того, программа может воспроизводить эмоции в голосе человека или настраиваться на разные стили речи.
Клонирование голоса не является чем-то новым. Но подход Microsoft отличается тем, что позволяет легко воспроизвести чей-либо голос с помощью всего лишь короткого фрагмента аудиоданных. Следовательно, нетрудно представить, что одна и та же технология подпитывает киберпреступность, которую команда Microsoft признает потенциальной угрозой.
«Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, она может нести потенциальные риски при неправильном использовании модели, например, подмена голосовой идентификации или выдача себя за конкретного говорящего», — пишут исследователи в своей статье. Тем не менее, команда отмечает, что возможно создать программы, которые могут «различать, был ли аудиоклип синтезирован VALL-E».
VALL-E интерпретирует звуковую речь как «дискретные токены», а затем воспроизводит токен, чтобы говорить с другим текстом. «VALL-E генерирует соответствующие акустические токены на основе акустических токенов 3-секундной зарегистрированной записи», — написали исследователи. «Наконец, сгенерированные акустические токены используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека».
Однако технология далека от совершенства. В своем исследовательском документе команда Microsoft отмечает, что VALL-E иногда может с трудом или не может произносить определенные слова. В других случаях слова могут звучать булькающими, искусственно синтезированными, роботизированными или просто тонально искаженными.
Комментарии
Байдену можно просто
в гробу лежатьотдыхать на даче. Остальное нарисуют, расшевелят и озвучат:)Вован и Лексус уже тестируют. У губеров и мэров заранее очко жимкует.
Моей тёте позвонила её сестра и истинно своим голосов выпросила у неё 650 000 р.
Разумеется, что настоящая сестра не звонила. Но голос был от настоящей, вплоть до интонаций и причмокивания от выбитого переднего зуба.
Это к инициативам Грефа и Сбера с голосовым подтверждением - идиоты.
"Приятный сюрприз ожидает поклонников таланта Филиппа Киркорова!
Теперь на концертах они не только услышат фонограмму,
но и увидят великолепное чучело певца!"(ц)
Да что там Киркоров - Бернес споёт "Встанем" с Шаманом.
Брехня.
А украинскою могёт?
паляныця
призвище
это слишком просто. а ну, хлопчик, скажи остановка по хихляцкм
не зупыняюсь на шляху...
добре! бачю що ты не москалик, трымай пырижок с полуныцэй!
пырукарня!
перукарня жЫ! не обманешь! плавали-знаем! "Обережно! Наступна станьция Пионерьска" (переименовали вроде)
кстати, я ту с удивлением обнаружил что Университет" и прочие арсеналы - глубже Белорусской в Мск и Площади Ленина в Питере
Врага всегда ждали с запада, вот и углубляли, считая видимо что первыми попадут под удар, а может из за особенностей каких, а враг он вон там на месте и образовался.
нет, тут всё проще - топография местности. Киев стоял на 7 холмах изначально - вот Арсенал и был в середине 1 от реки холма.
там высоты - огого!
Какой простор для реализации фантазий открыла Майкрософт. Несчастные негры станут гораздо счастливее. Опустить белых пиндосов по телефону это путь к самореализации каждого негра.
Пусть оно сначала "поляниця" скажет...
А в чём там фокус с этой "поляниця"?
В том, москалику, шо не правильно ты гутаришь!
Раздолье для телефонных мошенников с Украины
Эта песенка стара, обосрать её пора
Старая ж тема. Давно её муслякают.
З.Ы. Вот на вскидку
https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11
https://trashbox.ru/link/programmy-dlya-izmeneniya-golosa
https://www.sravni.ru/text/programm-dlya-izmeneniya-golosa/
Хорошо, разработали.
Но вот вопрос - для какой итоговой цели создавалась данная программа?
У меня, кроме манипуляций и обмана, ничего в голову не приходит.
Ребята, вы простите меня, но это - <самоцензура>.
=========
В реальности сейчас одна из точек роста в синтезе речи - борьба за уменьшение требуемого объема речи целевого диктора для успешного синтеза его речи.
Но про три секунды - это сказка.
Явление Природы состоит в том, что человек обычно говорит со скоростью примерно 25 фонем в секунду. То есть за три секунды он произнесет примерно 75 фонем. Ладно, я не мелочен - пусть у нас есть 100 фонем, произнесенных голосом целевого диктора.
Это будут самые частотные фонемы, причем в самых часто встречающихся сочетаниях (а переходные участки несут в себе заметную часть индивидуальности диктора).
=========
Итого в результате - Мелкомягкие научились воспроизводить голос целевого диктора, будучи с ним практически не знакомы.
И это я еще рассуждал только о воспроизведении характерных особенностей произношения фонем. А есть еще и индивидуальные особенности формирования интонационного контура, которые за три секунды просто не проявляются. Три секунды - грубо говоря, одна фраза.
Вот мы имеем образец одной фразы. Например, повествоательной. А как будет у этого диктора звучать вопросительная фраза?
==========
Я не обвиняю автора или Мелкомягких в прямой лжи, они просто недоговаривают. Обычно в аналогичных случаях авторы в своих статьях недоговаривают о наличии каких-либо ограничений.
Я, например, легко могу поверить в то, что после изучения трех секунд речи можно синтезировать фразу "меня нет дома", сказанную без выраженных эмоций. Или фразу "Нет, никогда!" - если в трех секундах был образец восклицания.
Умеют Майки в маркетинг ну и барыжить(скупать технологии)
Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).
https://xakep.ru/2023/01/12/vall-e/
https://arxiv.org/pdf/2301.02111.pdf
OpenAI разработки:
- В 2020 году OpenAI анонсировала GPT-3 — языковую модель, обученную на триллионах слов из Интернета.
- В 2021 году OpenAI представила DALL-E , модель глубокого обучения, которая может генерировать цифровые изображения из описаний на естественном языке.
- В декабре 2022 г. запуск ChatGPT, чат -бот с искусственным интеллектом, основанного на GPT-3.5 (GPT-4 d 2023 г.) Модели были обучены в сотрудничестве с Microsoft на их суперкомпьютерной инфраструктуре Azure.
Предистория:
OpenAI — это исследовательская лаборатория искусственного интеллекта (ИИ).
Организация была основана в Сан-Франциско в конце 2015 года Сэмом Альтманом , Илоном Маском и др.($1 млрд вложений)
Открытая компания, работающая на благо общества, а не государства или корпорации.
Маск вышел из совета директоров в феврале 2018г.(конфликт интересов - Tesla AI)
Microsoft крупнейший инвестор и партнер OpenAI.(2019г. $1 млрд вложений)
В 2019 году OpenAI перешел из некоммерческой организации в коммерческую.
2022г. Microsoft вместе с несколькими венчурными фирмами ведёт переговоры об инвестировании $10 млрд в OpenAI.
В результате сделки Microsoft будет получать 75% прибыли OpenAI до тех пор, пока не окупит свои инвестиции,
после чего Microsoft будет принадлежать 49% акций компании.
Ещё 49% получат другие инвесторы, а некоммерческая материнская компания OpenAI будет владеть 2%.
https://en.wikipedia.org/wiki/OpenAI
https://en.wikipedia.org/wiki/GPT-3
https://en.wikipedia.org/wiki/Language_model
https://en.wikipedia.org/wiki/ChatGPT