oracle • Программа искусственного интеллекта Microsoft может клонировать ваш голос из 3-секундного аудиоклипа

Какой простор для реализации фантазий открыла Майкрософт. Несчастные негры станут гораздо счастливее. Опустить белых пиндосов по телефону это путь к самореализации каждого негра.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 1 неделя)14:40-12/Янв/23

Пусть оно сначала "поляниця" скажет...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 9 месяцев)17:57-12/Янв/23

Пусть оно сначала "поляниця" скажет...

А в чём там фокус с этой "поляниця"?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 3 месяца)20:17-12/Янв/23

В том, москалику, шо не правильно ты гутаришь!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 3 недели)14:42-12/Янв/23

Раздолье для телефонных мошенников с Украины

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 5 месяцев)14:52-12/Янв/23

Эта песенка стара, обосрать её пора

Старая ж тема. Давно её муслякают.

З.Ы. Вот на вскидку

https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11

https://trashbox.ru/link/programmy-dlya-izmeneniya-golosa

https://www.sravni.ru/text/programm-dlya-izmeneniya-golosa/

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 1 месяц)15:14-12/Янв/23

Хорошо, разработали.

Но вот вопрос - для какой итоговой цели создавалась данная программа?

У меня, кроме манипуляций и обмана, ничего в голову не приходит.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 3 недели)16:06-12/Янв/23

Ребята, вы простите меня, но это - <самоцензура>.

=========

В реальности сейчас одна из точек роста в синтезе речи - борьба за уменьшение требуемого объема речи целевого диктора для успешного синтеза его речи.

Но про три секунды - это сказка.

Явление Природы состоит в том, что человек обычно говорит со скоростью примерно 25 фонем в секунду. То есть за три секунды он произнесет примерно 75 фонем. Ладно, я не мелочен - пусть у нас есть 100 фонем, произнесенных голосом целевого диктора.

Это будут самые частотные фонемы, причем в самых часто встречающихся сочетаниях (а переходные участки несут в себе заметную часть индивидуальности диктора).

=========

Итого в результате - Мелкомягкие научились воспроизводить голос целевого диктора, будучи с ним практически не знакомы.

И это я еще рассуждал только о воспроизведении характерных особенностей произношения фонем. А есть еще и индивидуальные особенности формирования интонационного контура, которые за три секунды просто не проявляются. Три секунды - грубо говоря, одна фраза.

Вот мы имеем образец одной фразы. Например, повествоательной. А как будет у этого диктора звучать вопросительная фраза?

==========

Я не обвиняю автора или Мелкомягких в прямой лжи, они просто недоговаривают. Обычно в аналогичных случаях авторы в своих статьях недоговаривают о наличии каких-либо ограничений.

Я, например, легко могу поверить в то, что после изучения трех секунд речи можно синтезировать фразу "меня нет дома", сказанную без выраженных эмоций. Или фразу "Нет, никогда!" - если в трех секундах был образец восклицания.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 6 месяцев)18:22-12/Янв/23

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(3 года 4 месяца)17:58-12/Янв/23

Умеют Майки в маркетинг ну и барыжить(скупать технологии)

Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).

https://xakep.ru/2023/01/12/vall-e/
https://arxiv.org/pdf/2301.02111.pdf

OpenAI разработки:
- В 2020 году OpenAI анонсировала GPT-3 — языковую модель, обученную на триллионах слов из Интернета.
- В 2021 году OpenAI представила DALL-E , модель глубокого обучения, которая может генерировать цифровые изображения из описаний на естественном языке.
- В декабре 2022 г. запуск ChatGPT, чат -бот с искусственным интеллектом, основанного на GPT-3.5 (GPT-4 d 2023 г.) Модели были обучены в сотрудничестве с Microsoft на их суперкомпьютерной инфраструктуре Azure.

Предистория:
OpenAI — это исследовательская лаборатория искусственного интеллекта (ИИ).
Организация была основана в Сан-Франциско в конце 2015 года Сэмом Альтманом , Илоном Маском и др.($1 млрд вложений)
Открытая компания, работающая на благо общества, а не государства или корпорации.
Маск вышел из совета директоров в феврале 2018г.(конфликт интересов - Tesla AI)
Microsoft крупнейший инвестор и партнер OpenAI.(2019г. $1 млрд вложений)
В 2019 году OpenAI перешел из некоммерческой организации в коммерческую.
2022г. Microsoft вместе с несколькими венчурными фирмами ведёт переговоры об инвестировании $10 млрд в OpenAI.
В результате сделки Microsoft будет получать 75% прибыли OpenAI до тех пор, пока не окупит свои инвестиции,
после чего Microsoft будет принадлежать 49% акций компании.
Ещё 49% получат другие инвесторы, а некоммерческая материнская компания OpenAI будет владеть 2%.

https://en.wikipedia.org/wiki/OpenAI
https://en.wikipedia.org/wiki/GPT-3
https://en.wikipedia.org/wiki/Language_model
https://en.wikipedia.org/wiki/ChatGPT

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Программа искусственного интеллекта Microsoft может клонировать ваш голос из 3-секундного аудиоклипа

Комментарии