Компания Microsoft представила новую программу под названием VASA, которая создает “реалистичные говорящие лица виртуальных персонажей с привлекательными визуальными эффектными навыками (VAS) на основе всего лишь одного статического изображения и аудиоклипа речи”.
“Наша премьерная модель VASA-1 способна не только воспроизводить движения губ, которые точно синхронизированы со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют восприятию подлинности и живости”, — написала команда в документе об этих последних разработках.
«Основные инновации включают целостную модель формирования динамики лица и движений головы, которая работает в скрытом пространстве лица, и разработку такого выразительного и расчлененного скрытого пространства лица с использованием видео. Благодаря обширным экспериментам, включая оценку по набору новых показателей, мы показываем, что наш метод значительно превосходит предыдущие методы по различным параметрам».
Методы, используемые Microsoft Research Asia для разработки подобных глубоких подделок, похожих на человеческие, позволяют создавать высококачественное видео в сочетании с реалистичной динамикой лица и головы. Такое видео может быть сгенерировано онлайн с разрешением 512x512 и скоростью до 40 кадров в секунду (FPS) и незначительной начальной задержкой.
С точки зрения непрофессионала, технология настолько правдоподобна, что многие люди, вероятно, клюнут на нее и подумают, что на их экранах изображены реальные люди. Только самые проницательные смогут сказать, что с тем, что они видят, что-то не совсем так.
«Это открывает путь для взаимодействия в режиме реального времени с реалистичными аватарами, имитирующими поведение человека в разговоре», — с гордостью заявляет Microsoft Research Asia.
Если вам интересно увидеть несколько примеров этих жутких движущихся и говорящих изображений, созданных искусственным интеллектом, вы можете сделать это на странице Microsoft.com.
Больше информации по ссылке: www.naturalnews.com
Источник перевода: newsstreet.ru
Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-перевод, можно найти здесь: t.me/murrrzio
"Халва, халва!..." (с)
Мелкомягкие уже всеми способами свой ИИ пиарят. Видать будущее окошко овертона по времени не будет длительным, и задача - успеть как можно больше срубить в нужный момент. Я так вижу (с).
Продолжаем наблюдать.
Комментарии
А причем тут интересно "интеллект"?
Читалка текста голосом была еще на 286-х компьютерах, а может самые первые и на ХТ работали. По тем временам это тогда был не интеллект даже, а вселенский разум. А распознавание голоса или текста? Чем ABBYY FineReader не галактический мозг?
Вопрос в качестве.
Сейчас качество видео и аудио становится неотличимым от оригинала.
Да заметно, что монтаж. Не знаю, но чутьё какое-то подсказывает.
Тут речь о лице всё же. Мимика и артикуляция под произвольный текст по статическому изображению. Понятно, что задача весьма специализированая - алгоритм заточен на то, что на входе именно фото, а на выходе именно говорящее лицо, что сильно ограничивает степени свободы, но это всё же сильно посерьёзней возможностей 286го. Ну, а вообще - всё где есть нейросети сейчас называется "интеллектом", пора бы уже привыкнуть. Если начать придираться к терминологии, то тогда вообще весь хайп с ИИ придётся корректировать.
>онлайн со скоростью 512x512 со скоростью до 40 кадров
Опечатка, видимо. "Скорость" вместо "разрешения".
Чатгопота писал - ему насрать на такие мелочи
= 262144
Понимать надо. ЧатЖПТ на русский математические выражения не переводит
Спасибо, поправил.
И разрешение картинки убогое и частота кадров непонятная и ни с чем не соотносится…
это для онлайна, если же заранее генерить - можно и выше качество
Нет, 256, 3.., 512, 768 все упирается в картиночные классификаторы. То что больше то апскейл он и в реалтайме работает. DLSS как пример.
имеется в виду realtime
Нормальное разрешение. Дальше накладывается апскейлер и хоть до 8к.
Экономия налицо. Не нужны говорящее тело, съёмочная группа, какие-то павильоны с дорогим оборудованием, и т. д., и т. п.
Говорящее тело в реальном времени еще и реагирует на внешние раздражители и изменение обстановки на своем ноуте. Еще и жестикулировать может как положено. А тут всё это надо будет прописывать. Иначе будет убогая кукла. Так что еще неизвестно, где будет больше затрат и персонала на прописывание трекатновостей и поведенческих реакций в нужных местах.
Дык, Бидонычу и так уже прописывают на бумажках, куда смотреть, чтобы ожидать вопрос, ожидаемый вопрос, сам ответ и с какой ухмылкой отвечать
А некоторые пендосские экс-журналишки уже пописывают о том, что интервью с представителями Белого дома больше смахивали на срежиссированный спектакль.
)) Как в статье хз, а так не надо )
Кстати, если все будут знать, что это генерация - кому будет нафиг нужна человекоподобность этих дикторов? Это будет атавизм через очень короткое время. А там уже хоть жопа говорящая, хоть вуди вудпекер хоть Хрюша со Степашкой - разницы не будет.
Можно будет в настройках переключать.
Сиськастую тёлку или какого-нибудь Винни Пуха по приколу по-пьяни.
Так вот включишь случайно по пьяни сиськастого винни пуха, а он тебе голосом Левитана фронтовые сводки… и в дурдом
К Хрюше со Степашкой можно перейти без всякого ИИ.
Я к тому, что если диктор не человек, то особо нет разницы кто… хоть Сейлор Мун - манда в матроске, хоть Дарт Вейдер. Кстати, он бы нормально зашел…
Понял Вас. Просто читал что очеловеченный робот пугает людей.
Да, именно, это всё какая-то антропоцентричная архаика, как роботы, имитирующие человека. Почему у робота должно быть только два глаза спереди, если он может себе позволить сферический обзор, например, или две неудобные ветки-хваталки, если он может иметь дюжину гибких удобных щупалец изменяемой длины с присосками. Так же и с диктором - пусть новости плебсу сообщает позитивный кот или енот, так всем будет уже повеселей всякий новостной депресняк и негатив выслушивать 😺
Енот в Стражах Галактики был зачотный
Или включаешь новости, а тебе полтора часа подряд: Я есть Грут! (и всё сразу понятно)
Ну а зачем их менять-то?) Их создавали (подкастеров, блогеров и пр. словесных агрессоров), штоб занять хоть чем-то. Ежели сейчас их заменять, то отправлять можно только на войну...
Не менять, а плодить.
Лет через 10-20 может и появятся программы, которые позволят массово создавать ИИ-блогеров, которые будут собирать в сети новости, переформировывать их под свой стиль изложения и выкладывать в свои блоги.
Будут созданы сотни миллиардов ии-блогеров, генерирующих разного рода контент. Борьба за читателя перейдёт на новый уровень.
Просто один-два блога уже не будут привлекать читателей и приносить прибыль, если, конечно, это не персонаж типа Трампа и т.п.
Я бы на гораздо быстрее поставил. Там ведь просто собрать данные, и выдать нечто правдоподобное. Главное почаще употреблять "возможно", "по всей видимости", чтобы отскочить можно было в случае неуспеха вангования. Да и сейчас уже диктуют эти сгенерированные тексты, и не заморачиваются.
Да, не исключено, что всё это придёт быстрее.
Ни читатель, ни прибыль в будущей конструкции не нужны и даже противопоказаны...) Это будет сеть собака-лампочка...
Зачем такие сложности? Гораздо проще один AGI. Просто каждому он будет рассказывать свое. И каждый будет видеть именно тот аварар который вызывает у него наибольшее доверие. А врать AGI будет запредельно и божественно, за пределами всяких человеческих возможностей.
В зависимости от того, что человек хочет услышать? И новости подбирать под каждого... Интересно.
А вы думаете зачем инвестиции по 100 миллиардов долларов в ИИ у Microsoft и Google?
Технически это уже возможно. Вопрос только в масштабировании системы на всю планету. Именно этим сейчас заняты Microsoft и Google. :)))
Дорогие телезрители, сегодня в студии с Вами я, 6B29FC40-CA47-1067-B31D-00DD010662DA и моя коллега 48208930-2e35-4fed-803a-aa679b0cdb97
C3PO и R2D2.
Зачем так усложнять.
Однозначно! Но в данном случая "я" это явно AGI.
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
100%, что можно сразу понять, что это робот.
Секунда, и ты уже смотришь другую программу.
А потом все программы станут такими и хоть ущёлкайся пультом. Да и какая разница - живая эта говорящая голова или искусственная? Текст не меняется.
Раньше дикторы были на всех каналах.
Объявляли программу.
Сейчас их давно нет, остались только журналисты.
Вряд ли они захотят уйти.
Да и зрителю не интересно на робота смотреть.
Так всю аудиторию растерять можно.
Кстати, у Соловьева новости читает робот.
Никогда его не слушаю.
Если вариантов нет, везде роботы, точнее изображения роботов
Экономия копеечная, зрители не примут.
Тем более, что роботам все равно кто-то текст писать будет.
а также президентов США.
Заменять говорящую голову типа Вассермановой, пойдет.
Да Пелевин просто провидец, с которым всякие жалкие Герберты Уэлсы и убогие Ванги даже рядом не лежали!
Ну, Пелевин еще когда это всё предсказывал
А интеллект в такое сможет?
Фильм "Симона" с Аль Пачино 2002 года. Вот где предсказание. Там виртуальная женщина становится топовой киноактрисой, поёт на живом концерте, раздаёт интервью. Когда её создатель решает открыть правду миру - ему отказываются верить. Когда смотрела фильм впервые, мне казалось, что если подобное и реализуется когда-нибудь, то в далёком будущем. А оказалось так близко.
У азиатов кстати, недавно, много работы было по микромимике. Макао заказчик.