Microsoft представила искусственный интеллект, который заменит подкастеров и ведущих новостей

Аватар пользователя Topmember

Компания Microsoft представила новую программу под названием VASA, которая создает “реалистичные говорящие лица виртуальных персонажей с привлекательными визуальными эффектными навыками (VAS) на основе всего лишь одного статического изображения и аудиоклипа речи”.

“Наша премьерная модель VASA-1 способна не только воспроизводить движения губ, которые точно синхронизированы со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют восприятию подлинности и живости”, — написала команда в документе об этих последних разработках.

«Основные инновации включают целостную модель формирования динамики лица и движений головы, которая работает в скрытом пространстве лица, и разработку такого выразительного и расчлененного скрытого пространства лица с использованием видео. Благодаря обширным экспериментам, включая оценку по набору новых показателей, мы показываем, что наш метод значительно превосходит предыдущие методы по различным параметрам».

Методы, используемые Microsoft Research Asia для разработки подобных глубоких подделок, похожих на человеческие, позволяют создавать высококачественное видео в сочетании с реалистичной динамикой лица и головы. Такое видео может быть сгенерировано онлайн с разрешением 512x512 и скоростью до 40 кадров в секунду (FPS) и незначительной начальной задержкой.

С точки зрения непрофессионала, технология настолько правдоподобна, что многие люди, вероятно, клюнут на нее и подумают, что на их экранах изображены реальные люди. Только самые проницательные смогут сказать, что с тем, что они видят, что-то не совсем так.

«Это открывает путь для взаимодействия в режиме реального времени с реалистичными аватарами, имитирующими поведение человека в разговоре», — с гордостью заявляет Microsoft Research Asia.

Если вам интересно увидеть несколько примеров этих жутких движущихся и говорящих изображений, созданных искусственным интеллектом, вы можете сделать это на странице Microsoft.com.
 

Больше информации по ссылке: www.naturalnews.com

Источник перевода: newsstreet.ru

 

Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-перевод, можно найти здесь: t.me/murrrzio

Авторство: 
Авторская работа / переводика
Комментарий редакции раздела Альтернативный Интеллект

"Халва, халва!..." (с)

Мелкомягкие уже всеми способами свой ИИ пиарят. Видать будущее окошко овертона по времени не будет длительным, и задача - успеть как можно больше срубить в нужный момент. Я так вижу (с).

Продолжаем наблюдать.

Комментарии

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

А причем тут интересно "интеллект"? 
Читалка текста голосом была еще на 286-х компьютерах, а может самые первые и на ХТ работали. По тем временам это тогда был не интеллект даже, а вселенский разум. А распознавание голоса или текста? Чем ABBYY FineReader не галактический мозг?

Аватар пользователя Serg_2022
Serg_2022(2 года 2 месяца)

Вопрос в качестве.

Сейчас качество видео и аудио становится неотличимым от оригинала.

Аватар пользователя Рукастый
Рукастый(8 лет 1 месяц)

Да заметно, что монтаж. Не знаю, но чутьё какое-то подсказывает. 

Комментарий администрации:  
*** Уличен в невменяемом хамстве - рекомендуется банить при рецидивах ***
Аватар пользователя qwweer
qwweer(8 лет 9 месяцев)

Тут речь о лице всё же. Мимика и артикуляция под произвольный текст по статическому изображению. Понятно, что задача весьма специализированая - алгоритм заточен на то, что на входе именно фото, а на выходе именно говорящее лицо, что сильно ограничивает степени свободы, но это всё же сильно посерьёзней возможностей 286го. Ну, а вообще - всё где есть нейросети сейчас называется "интеллектом", пора бы уже привыкнуть. Если начать придираться к терминологии, то тогда вообще весь хайп с ИИ придётся корректировать.

Аватар пользователя Авалокитешвара

>онлайн со скоростью 512x512 со скоростью до 40 кадров

Опечатка, видимо. "Скорость" вместо "разрешения".

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Чатгопота писал - ему насрать на такие мелочи

Аватар пользователя Fandaal
Fandaal(9 лет 6 месяцев)

со скоростью 512x512

= 262144

Понимать надо. ЧатЖПТ на русский математические выражения не переводит smile3.gif

Аватар пользователя Topmember
Topmember(12 лет 1 месяц)

Спасибо, поправил.

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Такое видео может быть сгенерировано онлайн со скоростью 512x512 со скоростью до 40 кадров в секунду (FPS)

И разрешение картинки убогое и частота кадров непонятная и ни с чем не соотносится… 

Аватар пользователя DjSens
DjSens(5 лет 10 месяцев)

это для онлайна,    если же заранее генерить - можно и выше качество

Аватар пользователя utx
utx(8 лет 5 месяцев)

Нет, 256, 3.., 512, 768 все упирается в картиночные классификаторы. То что больше то апскейл он и в реалтайме работает. DLSS как пример.

Аватар пользователя DjSens
DjSens(5 лет 10 месяцев)

имеется в виду realtime

Аватар пользователя utx
utx(8 лет 5 месяцев)

Нормальное разрешение. Дальше накладывается апскейлер и хоть до 8к.

Аватар пользователя Fandaal
Fandaal(9 лет 6 месяцев)

Экономия налицо. Не нужны говорящее тело, съёмочная группа, какие-то павильоны с дорогим оборудованием, и т. д., и т. п.

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Говорящее тело в реальном времени еще и реагирует на внешние раздражители и изменение обстановки на своем ноуте. Еще и жестикулировать может как положено. А тут всё это надо будет прописывать. Иначе будет убогая кукла. Так что еще неизвестно, где будет больше затрат и персонала на прописывание трекатновостей и поведенческих реакций в нужных местах. 

Аватар пользователя БК 0010
БК 0010(6 лет 8 месяцев)

Так что еще неизвестно, где будет больше затрат и персонала на прописывание трекатновостей и поведенческих реакций в нужных местах.

Дык, Бидонычу и так уже прописывают на бумажках, куда смотреть, чтобы ожидать вопрос, ожидаемый вопрос, сам ответ и с какой ухмылкой отвечать smile1.gif

А некоторые пендосские экс-журналишки уже пописывают о том, что интервью с представителями Белого дома больше смахивали на срежиссированный спектакль.

Аватар пользователя utx
utx(8 лет 5 месяцев)

)) Как в статье хз, а так не надо )

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Кстати, если все будут знать, что это генерация - кому будет нафиг нужна человекоподобность этих дикторов? Это будет атавизм через очень короткое время. А там уже хоть жопа говорящая, хоть вуди вудпекер хоть Хрюша со Степашкой - разницы не будет. 

Аватар пользователя Fandaal
Fandaal(9 лет 6 месяцев)

Можно будет в настройках переключать.

Сиськастую тёлку или какого-нибудь Винни Пуха по приколу по-пьяни.

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Так вот включишь случайно по пьяни сиськастого винни пуха, а он тебе голосом Левитана фронтовые сводки… и в дурдом smile3.gif

Аватар пользователя Редут
Редут(9 лет 5 месяцев)

К Хрюше со Степашкой можно перейти без всякого ИИ.

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Я к тому, что если диктор не человек, то особо нет разницы кто… хоть Сейлор Мун - манда в матроске, хоть Дарт Вейдер. Кстати, он бы нормально зашел…

Аватар пользователя Редут
Редут(9 лет 5 месяцев)

Понял Вас. Просто читал что очеловеченный робот пугает людей.

Аватар пользователя zebraptor
zebraptor(10 лет 8 месяцев)

Да, именно, это всё какая-то антропоцентричная архаика, как роботы, имитирующие человека. Почему у робота должно быть только два глаза спереди, если он может себе позволить сферический обзор, например, или две неудобные ветки-хваталки, если он может иметь дюжину гибких удобных щупалец изменяемой длины с присосками. Так же и с диктором - пусть новости плебсу сообщает позитивный кот или енот, так всем будет уже повеселей всякий новостной депресняк и негатив выслушивать 😺

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Енот в Стражах Галактики был зачотный

Или включаешь новости, а тебе полтора часа подряд: Я есть Грут! (и всё сразу понятно) smile3.gif

Аватар пользователя corokoc
corokoc(8 лет 2 месяца)

Ну а зачем их менять-то?) Их создавали (подкастеров, блогеров и пр. словесных агрессоров), штоб занять хоть чем-то. Ежели сейчас их заменять, то отправлять можно только на войну...

Аватар пользователя Topmember
Topmember(12 лет 1 месяц)

Не менять, а плодить. 

Лет через 10-20 может и появятся программы, которые позволят массово создавать ИИ-блогеров, которые будут собирать в сети новости, переформировывать их под свой стиль изложения и выкладывать в свои блоги.

Будут созданы сотни миллиардов ии-блогеров, генерирующих разного рода контент. Борьба за читателя перейдёт на новый уровень.

Просто один-два блога уже не будут привлекать читателей и приносить прибыль, если, конечно, это не персонаж типа Трампа и т.п.

Аватар пользователя Fandaal
Fandaal(9 лет 6 месяцев)

Лет через 10-20

Я бы на гораздо быстрее поставил. Там ведь просто собрать данные, и выдать нечто правдоподобное. Главное почаще употреблять "возможно", "по всей видимости", чтобы отскочить можно было в случае неуспеха вангования. Да и сейчас уже диктуют эти сгенерированные тексты, и не заморачиваются.

Аватар пользователя Topmember
Topmember(12 лет 1 месяц)

Я бы на гораздо быстрее поставил.

Да, не исключено, что всё это придёт быстрее.

Аватар пользователя corokoc
corokoc(8 лет 2 месяца)

Ни читатель, ни прибыль в будущей конструкции не нужны и даже противопоказаны...) Это будет сеть собака-лампочка...

Аватар пользователя Корректор
Корректор(7 лет 2 месяца)

Будут созданы сотни миллиардов ии-блогеров, генерирующих разного рода контент. Борьба за читателя перейдёт на новый уровень.

Зачем такие сложности? Гораздо проще один AGI. Просто каждому он будет рассказывать свое. И каждый будет видеть именно тот аварар который вызывает у него наибольшее доверие. А врать AGI будет запредельно и божественно, за пределами всяких человеческих возможностей. 

Аватар пользователя Topmember
Topmember(12 лет 1 месяц)

А врать AGI будет запредельно и божественно, за пределами всяких человеческих возможностей. 

В зависимости от того, что человек хочет услышать? И новости подбирать под каждого... Интересно.

Аватар пользователя Корректор
Корректор(7 лет 2 месяца)

А вы думаете зачем инвестиции по 100 миллиардов долларов в ИИ у Microsoft и Google?

Технически это уже возможно. Вопрос только в масштабировании системы на всю планету. Именно этим сейчас заняты Microsoft и Google. :)))

Аватар пользователя Zivert
Zivert(3 года 9 месяцев)

Дорогие телезрители, сегодня в студии с Вами я, 6B29FC40-CA47-1067-B31D-00DD010662DA и моя коллега 48208930-2e35-4fed-803a-aa679b0cdb97

Аватар пользователя Малый Евген
Малый Евген(10 лет 6 месяцев)

C3PO и R2D2.

Зачем так усложнять.

Аватар пользователя Корректор
Корректор(7 лет 2 месяца)

Однозначно! Но в данном случая "я" это явно AGI. 

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя predessor
predessor(6 лет 3 месяца)

100%, что можно сразу понять, что это робот.

Секунда, и ты уже смотришь другую программу.

Аватар пользователя BarBoss
BarBoss(9 лет 6 месяцев)

А потом все программы станут такими и хоть ущёлкайся пультом. Да и какая разница - живая эта говорящая голова или искусственная? Текст не меняется.

Аватар пользователя predessor
predessor(6 лет 3 месяца)

Раньше дикторы были на всех каналах.

Объявляли программу.

Сейчас их давно нет, остались только журналисты.

Вряд ли они захотят уйти.

Да и зрителю не интересно на робота смотреть.

Так всю аудиторию растерять можно.

Кстати, у Соловьева новости читает робот.

Никогда его не слушаю.

Аватар пользователя Dragen
Dragen(8 лет 5 месяцев)

Так всю аудиторию растерять можно.

Если вариантов нет, везде роботы, точнее изображения роботов

Аватар пользователя predessor
predessor(6 лет 3 месяца)

Экономия копеечная, зрители не примут.

Тем более, что роботам все равно кто-то текст писать будет.

Аватар пользователя ИЮЛь Майский

который заменит подкастеров и ведущих новостей

а также президентов США.

Аватар пользователя Тех Алекс
Тех Алекс(8 лет 11 месяцев)

Заменять говорящую голову типа Вассермановой, пойдет.

Аватар пользователя BarBoss
BarBoss(9 лет 6 месяцев)

Да Пелевин просто провидец, с которым всякие жалкие Герберты Уэлсы и убогие Ванги даже рядом не лежали!

Аватар пользователя Repptilia Vulgaris
Repptilia Vulgaris(2 года 10 месяцев)

Ну, Пелевин еще когда это всё предсказывал

Аватар пользователя atorn
atorn(6 лет 4 месяца)

А интеллект в такое сможет?

Аватар пользователя Maksara
Maksara(2 года 2 месяца)

Фильм "Симона" с Аль Пачино 2002 года. Вот где предсказание. Там виртуальная женщина становится топовой киноактрисой, поёт на живом концерте, раздаёт интервью. Когда её создатель решает открыть правду миру - ему отказываются верить. Когда смотрела фильм впервые, мне казалось, что если подобное и реализуется когда-нибудь, то в далёком будущем. А оказалось так близко. 

Аватар пользователя utx
utx(8 лет 5 месяцев)

У азиатов кстати, недавно, много работы было по микромимике. Макао заказчик. smile3.gif