Если б я был султан...
Инструменты использования ИИ активно развиваются, но некоторые сферы деятельности людей что больше всего готовы для массового внедрения ИИ все еще недооценены. В частности это область мультимодальных зрелищ.
Речь о генеративных ИИ с медийными возможностями уровня лучше чем VIDU / EMO / SORA / Suno AI / Dalle+ и далее по списку**.
Рынок зрелищ только кинематографический это более 200 млрд доходов в год не только от продажи контента, но и от рекламы на его фоне. Сегодня визуальные генеративные ИИ ИМХО реальный двигатель развития ИИ (и косвенно двигатель прогресса микрочипов для ИИ).
Есть 3+ способа создания фотореалистичных медиа. 1. Использование 3д аватаров и актеров в качестве источника движений и мимики для аватаров (как при съемке ф. "Планеты обезьян 24"). 2. Ручная пошаговая анимация 3д моделей (включая их мимику, стараясь к примеру попасть в видео актера в фоне (каждый 25 кадр или меньше при быстрых движениях)). 3. Нынешняя спорная модель генеративных ИИ медиа мультимодального контента, особенно видео с огромным числом артефактов генерации и разнообразных глюков, что ставят под сомнение коммерческую выгоду при внедрении подобной анимации.
ИМХО если прикрутить ИИ аватар(созданный на основе анализа шаблонов медиа) к методу 1 (вместо актеров) для управления "голливудским" движком создания фотореалистичных медиа(или ИИ мог бы управлять методом 2) можно было бы получить сразу наилучший результат, с возможностью генерировать как черновые варианты видео в реальном времени так и рендерить финальные.
Здесь и ниже - мое мнение как лучше было бы сделать некоторые вещи в области генеративного ИИ. Для специалистов здесь может быть много элементов из разряда капитана очевидность(просьба проходить мимо). Что-то слишком очевидное уже вырезано. Это мое понимание, чтобы в т.ч. лучше предсказывать что будет дальше в данной сфере.
1. Предварительные шаги
1.1. Общая оцифровка, де-рендеринг существующих медиа
Проф компьютерное зрение для оцифровки в 3д/VR модели существующих медиа и снятых фриленсерами сцен и моделей (по удаленному запросу например). Чем больше медиа уже оцифровано (а очень много 3Д моделей уже есть в играх) - тем проще будет оцифровывать то что осталось.
[Микроволновые съемки со спутников. Дают значительный объем 3д информации о поверхности и также могут использоваться для создания объемных карт городов и не только.]
Компьютерное зрение, а также процесс оцифровки ("де-рендеринга") всех медиа - сложный и ресурсо.емкий процесс. Но т.к. он возможен и есть конкретные примеры как переводятся реальные локации в 3д в играх и с учетом сведений условно из открытых источников - такое зрение (но более дешевое с использованием продвинутых ИИ) не является недостижимым. Чем больше у ИИ опыта в оцифровке тем меньше информации потребуется ИИ для оцифровки какой либо сцены, т.к. он сможет брать уже оцифрованную(переведенную в 3д) информацию [но стандарты длинны высоты цвета расставленные по локации до съемки или информация с лидара (специальные камеры с лидаром) ИИ для большей точности при любительских съемках на любительские камеры не помешали бы].
Задача оцифровки/де рендеренга видео (в первую очередь шаблонов движения людей) по уровню сложности и объемам обрабатываемой и хранимой информации (начиная со всех имеющихся видео и результатов их оцифровки) в виде условных исходников (если не упрощать по особым алгоритмам и затем при рендеринге вносить шум или генерировать случайные текстуры высокого качества на ходу) может и на петабайты потянуть. Примеры реалистичных оцифровок и прайсы сколько это стоит вроде как имеются у игроделов. [Кроме традиционного видео зрения сегодня у ИИ есть микроволновое авиационное зрение высокого разрешения что может видеть и вглубь строений и под землю на некоторую величину. Для тех у кого много денег еще есть мобильное рентгенографическое зрение что будет хорошо видеть коммуникации и проводку, какие-то силовые элементы и внутреннюю структуру зданий.]
Предположим у нас есть сверх реалистичная версия движка что используется для создания фильмов уровня "Планета обезьян 24"
https://www.youtube.com/watch?v=y0gcA1mdnvw
назовем его условным unreal 6+, который знает физику(Земли, Луны, Марса, Космоса, знает карту звездного неба туманностей вплоть до спутников и может эмулировать 3Д физику (при любой освещенности и погоде). Де-рендеринг в конечном итоге должен формировать проект [интуитивно понятный не специалисту и желательно с управлением промптами или вообще просто текстовыми запросами] для такого движка с соответствующими 2д/3д объектами на основе которого можно фотореалистично воспроизвести исходную медиа/видео сцену в т.ч. с других камер в т.ч. с апскейлом качества в т.ч. с изменением освещения и с замещением любых 3д объектов на другие из библиотеки или добавленных вручную т.ч. с элементами дипфейка.
Де-рендеринг медиа должен создавать определенные шаблоны (в первую очередь сюжетных сцен с характерными движениями персонажей [имеющих эквивалент текстового промпта для каждого шаблона]) и запоминать классические или оптимальные методы съемки таких сцен, что в конечном итоге складываются в сценарий произведения (с определенными промптами характерными для конкретного произведения). Т.е. произведение в процессе распознавание и де-рендеренга может быть оцифровано / деконструировано (из 3д до "1д" текста+ и 2д+ картинок или 3д мини моделей персонажей и локации) до текстовой фабулы (wiki/Фабула) произведения(или она может быть взята из открытых источников(в виде сценария или исходника медиа произведения) и обзоров).
Для понимания потенциала метода помимо примеров что рандомно делает VIDU / SORA есть более точный пример целевого создания контента по промптам и 2д исходникам. Пример работы движка EMO:
https://www.youtube.com/watch?v=XHOVg6mI3KU
[SORA вроде как тоже может продлевать фрагменты существующих видео возможно с фото будет работать]
Т.е. если развить возможности данного движка не только на движение мимики (речь о шаблонах движения / пластики тела) хотя это само по себе не простая задача и создать язык для быстрого объяснения ИИ что от него требуется заказчику (подразумевается что ии уже будет знать помимо чернового сценария все что сделано людьми в области медиа и умеет это использовать), то любую сцену из "Планеты обезьян 24" можно воспроизвести без наличия актеров, а только по сценарию, диалогам и фото персонажей(3д модели возьмет из своей библиотеки или сгенерирует самостоятельно с 95% подобия (зависит от качества и числа фото)).
ИИ сам подберет как лучшим образом создать реализовать сценарий. Проблема чтобы игра ИИ актеров (аватаров) была релевантной задумке режиссера, а не прыгала рандомно от одного медиа к другому с элементами актерской "шизофрении" (случайного переключения шаблонов между медиа и соответственно "характеров" шаблонов из разных источников). Т.е. (при оцифровке / распознании) необходимо учесть данный момент и помимо самих эмоций должен быть еще фактор уровня эмоций и уровень выразительности (более тонкое понимание мимики, а не слепое копи пасте воспроизведение). Т.е. должно быть приведение всех действий и эмоций к абстрактным взрослому / ребенку / мужчине женщине пожилому человеку (или еще больше типовых шаблонов в т. ч. авторских или людей а ля Джокер) какого-то среднего телосложения и то же самое об усредненных чертах лица. Но все это может быть преобразовано и обратно к конкретным желаемым персонажам с уникальными чертами лица или даже к тем же аватарам обезьян.
Пока все дело в цене самой оцифровки и её качестве и в цене за условную минуту такого ограниченного жесткими рамками заданного режиссером / заказчиком видео включая все дубли.
***
Хорошо сделанный и обученный ИИ с высокой артистичностью (что на раз два проходит тесты на актерское мастерство и не сбивается в мимике и её уровне) - может заменить и толпу средней руки актеров и которые в лучшем случае могут служить моделями для разовой съемки внешности, мимики и движений (с нанесением точек-маркеров) в каких-то типовых сценах на хромокее если они выразительные. Понятно что одновременно ИИ заменяет и съемочную группу и службу освещения. А также тот нюанс что любая оцифрованная сцена может быть изменена/ доработана в деталях(может быть убран добавлен свет шум дождь туман дым или оптические блики / искажения камеры) в любой момент без её пересъемки (как при обычном процессе создания 3д медиа).
***
Пример аудиально выразительного генеративного ИИ аудио (местами круче Suno AI (чтоб было представление, чел следит за темой и выкладывает новые обзоры))
https://www.youtube.com/watch?v=7G7NyELDkBE
[Медиа постельных сцен, полагаю, ждут аналогичных ИИ по переозвучке по контенту видео аудио ряда или по субтитрам]
***
Предварительный вывод что можно сделать уже сейчас - что традиционным методам съемки, режиссерам, сценаристам, а также актерам в будущем если не придет конец, то им придется по цене/качеству конкурировать с искинами что будут прекрасно визуально маскироваться под людей и даже быть лучше их по качеству актерской игры. Так зачем зрителю переплачивать за контент что создают люди (здесь речь не идет о тех же ранобэ до них ИМХО еще лет 5+ пока искины станут вменяемыми авторами) отнюдь не по зеленым технологиям, если ИИ смогут делать то же самое, но качественнее, дешевле и больше/разнообразнее?
***
При оцифровке важно отметить максимум деталей, которые затем будут отмечено в условном точном промпте (что важно как для анализа процесса создания медиа так и для последующего воспроизведения сцен по промптам).
Это одновременно будет служить обучающий материалом как (путем текстовой манипуляции) генерировать сценарии и промпты чтобы получить то что вам нужно [возможно будет проблема перепоизводства контента похожего на топ произведения(рерайтов). С точки зрения даже ИИ - не самая умная стратегия завоевания медиа рынка(максимизации прибыли)].
Самый краткий и грубый уровень оцифровки / описания произведения(как указание стилей в музыке) через облако тэгов как на условном ворлд-арте.
Качество видео в т.ч. по актерской игре познается в сравнении. Число действительно хороших актерских / режиссерских школ в мире достаточно мало или они ограничены временными рамками. В странах где решает не талант, а статус или кошелек - снять что-то толковое с высоким актерским мастерством еще сложнее.
***
ИИ при оцифровке и де-рендеринге должен использовать понятное не специалисту текстовое "1Д"* описание или сценарий с типовыми названиями шаблонов взятых из открытых источников(книг включая оригинальные книги по которым снят фильм и сценарий если есть) с текстовыми гиперссылками на более основательную текстовую расшифровку шаблону (которые при желании можно редактировать или кастомизировать, а при генерации медиа можно поставить автомодификакатор рандомизатор движений чтоб снизить эффект де жа вю, плюс модификатор положения камеры или динамичная камера чтобы движения если повторяются выглядели более естественными (менее механистичными (более сложными, с задействованием большего числа суставов и мышц)) и стали более человечными
[у простой руки 31 степень свободы. Если рука или тело движется с малым числом степеней свободы и движения повторяются это сразу видно].
Чтоб не плодить уникальные шаблоны движений для второстепенных видео могут быть отсылки на стандартные шаблоны с указанием дополнительных параметров(начиная со скорости движения и уровня профессионализма). Пример шаг, бег, но они также могут быть разные для разных видов спорта например (что задается уточняющими параметрами промпта).
Типовые шаблоны из открытых источников:
Очень много типовых готовых шаблонов в открытых источниках со своими специфическими названиями в спорте. Начиная с борьбы, танцев, фигурного катания футболе в футболе (включая самых выдающихся) их мимику и естественную реакцию на успех и далее по списку. Все что есть в теннисе+, плавании, фигурном катании, легкоатлетических видах спорта... По любому виду спорта при наличии основы и консультанта можно создать интересный сюжет и фильм и не один. И уже такие существуют и созданы. Гимнастика йога для снятия физических возможностей спортивного тела.
Красивые движения (даже просто ходьба) моделей и фиксированные позы при показе мод (то же самое на красивых фото моделей ("лучшие ракурсы" лучшая освещенность по оценкам специалистов и зрителей)).
Оцифровать естественную мимику движения во всех формах всех животных, птиц. Включая повадки во время охоты и других действий (оцифровать документальные фильмы).
Оцифровка музыкальных клипов(в т.ч. с целью их генерации как отдельного вида искусства). И шабонирование отдельных методов что используются в них. (хотя там очень много хаотичности и рандома). Оцифровка AMV GMV MMV ...
Типовые региональные временные медийные шаблоны разных эпох и школ съемки. При наборе достаточной статистики чтобы понять где базовый шаблоны, а где вторичные - можно одни шаблоны описывать через другие используя модификаторы(уточнения). Нет необходимости плодить уникальные шаблоны на ровном месте и для блока анализа так будет проще.
Все тикток ролики с большим числом просмотров (с целью поиска их "соли" и сути)
***
Фактор важности и значимости шаблона. Разный подход к разным медиа источникам. Учет фактора денежных сборов, зрительских оценок и известности (текстовых отзывов и критики). Учет формата медиа(документальный, фильм, мультипликация(какая?)). Кроме первичных медиа с живыми актерами, могут быть медиа вторичные к примеру м/ф где применена или рисовка или компьютерная анимация и графика. Физика таких медиа будет скорее несколько мультипликационной.
Если медиа (или его фрагмент) представляет художественный интерес то детальность описания при оцифровке может быть увеличена. Особенно если шаблон включая съемку авторские.
В одном случае по более точному описанию медиа можно будет восстановить большую часть содержания, а в другом случае будет передана лишь общая суть медиа. При рендеренге такого описания будет косвенный рерайт исходного видео. Качество оцифровки динамическое 99+% для важных медиа и ключевых сцен 90% и ниже для "воды и прочей медиамании (аналог графомании)"
***
Проблема де-рендеринга медиа / рендеринга проектов с потерей данных и без потерь. (удаления добавления "шума" "воздуха" и прочей воды и контекстного инфошума).
Качество оцифровки мусора шума дыма снега может быть описано общими фразами (не смысла оцифровывать каждый мусорный листок если это не играет роли по сюжету). Как погодный модуль или модулей деталей/разного вида мусора (контекстного) могут добавляться автоматически в любой контент для повышения его фотореалистичности. Не следует забывать что нельзя отвлекать внимание от персонажей (на внешние факторы) если это не требуется по сюжету.
Ракурс движение камеры шаблонируется для получения оптимального результата и качества.
Описание помещений (локации) тоже условно шаблонированное с добавлением 2д фото если требуется (либо это может быть объемная локация по которой можно перемещаться как в игре).
Освещение или его изменение аналогично также могут быть шаблонированы и отличаться от естественного (т.к. очень часто используются подсветка вообще вероятно уже должны должны быть всесторонние следящие фонари подсветки работающие совместно со следящими камерами). Сценические подсветки могут быть и сверху и снизу(включая светящийся пол).
Интерьер / сцена / антураж / локация (если не будет отвлекать внимание от сюжета и дать время зрителю для ознакомления с ним чтобы переключиться на сюжет) может шаблонироваться с целью генерации чего-то подобного.
Существуют игры с открытым миром Земли с оцифровкой что фактически используют оцифровку стрит вьюв гугл мап (но возможно и частную или военную спутниковую съемку в т.ч. микроволновую):
https://www.youtube.com/watch?v=1AKGwDbDif8
Одна из игр списка (microsoft flight simulator) по ссылке, как пример:
https://www.youtube.com/watch?v=CRjh4ANxM5o
Минус что не создали открытый мир Солнечной системы включая Луну и планеты. [Только непонятно надо ли на Луне "рисовать" элементы присутствия американцев?]
***
Геймификация движений камеры в медиа. Ранее подобные ракурсы и виды с высоким качеством не применялись в медиа из-за громоздкости проф камер.
Мимику грацию движения, уникальные тембры и акценты голоса (что востребованы в новостях у дикторов) оцифровка наиболее выдающихся дикторов например (из разряда озвучка аукционов) надо оцифровывать отдельно чтобы была возможность их использования. Оперные певцы. певицы с наиболее выдающимися голосами. Люди что могут менять высоту голоса(и пранковать любой голос) имитировать звуки окружающей среды и животных...
Могут быть оцифрованы уличные тикток (пляжные) спортсмены гимнасты или просто реальные спортсмены(с химией и без) для снятия 3д профилей мышц+ и движений (на что способен человек и с какой скоростью), их мимика если подходит. Де факто может быть сделан цифровой аватар или гибридный аватар по типичному ряду упражнений что требуется повторить в т.ч. на гибкость.
Может быть оцифрована мимика лица в разных странах на разных языках из разных актерских школ.
Также можно запустить локальную оцифровку предметов бижутерии (медалей, монет), оружия (что могут показываться в медиа в высоком качестве) с учетом освещения через сканер текстур и 3Д сканер.
Это также важно как для распознавания предметов так и реалистичного их отображения в каком видео про 2д 1д описанию в крупных планах. Можно что-то взять из условного "CS" и вообще из всех доступных игр извлечь оцифровать внести в бд все 3д объекты высокого разрешения что в них есть.
Есть вселенная minecraft'а. По аналогии можно создать вселенную / склад 3д объектов ИИ высокой степени 3д оцифровки объектов по которому можно ходить, ездить летать в т.ч. на всех оцифрованных видах транспорта (ставить рейтинги и отправлять на повторную оцифровку что-то с низкими рейтингами).
***
Монтаж перемотка смена локации в медиа использование рекламных пауз. Если речь о сериалах то уже нужны напоминалки включая текстовые при переключении сюжета (географическое переключение и привязки к параллельному развитию сюжета) все такие способы имеют свое значение и смысл в медиа(обычно для повышения степени погружения, а не просто время занимают (но если смотреть сериал одним махом - это наоборот может отвлекать)).
Гипноприемы нешаблонного воздействия на зрителя с передержками сцен с гипно музыкой как-будто зритель на веществах(использования методов создания клипов с замедленными сценами в медиа). Есть разные методы визуального и аудиального воздействия на зрителя особенно в каких-то известных или ставших культовыми медиа(а также вероятно все это есть в клипах, а когда начинает звучать фоновая музыка(или её подобие в стиле техно) сходство с клипами(как с отдельным жанром искусства) становится еще больше).
***
Дешифровка рекламных фрагментов в видео - возможность их замены глобальной рекламы на национальную на лету (а у тех кто может заплатить за просмотр без рекламы - замена на абстрактную нонейм рекламу несуществующих фирм или на социальную).
Дешифровка пропаганды, русофобии и контр пропаганды. Может помечаться специальными значками или субтитрами (по желанию пользователя что это контент иноагентов). Или может быть вырезана и скрыта или заменена на контр пропаганду. (Особое внимание и "любовь" к любой русофобии).
Некоторые нюансы де-рендеринга...
Вид медиа (тип источника (2Д 3Д аниме или просто фильм) естественно отмечается в описании при оцифровке.
При генерации / рендеринге проекта - мультимодальных медиа могут использоваться разные фильтры для получения разного (мультимодального) конечного результата.
Как самое топовое апскейл медиа - может генерироваться видео для VR+ очков (или даже для 5д костюма с сенсорным электро или просто вибро откликом по условным 100+ точкам на костюме (также возможно создать эффект прижатия к телу вакуумом (проблема вентиляции)). Поиск выдал VR-костюм Teslasuit есть сомнение) в т.ч. с увеличенными эффектами перспективы(когда что-то летит или бросается в вашем направлении или вы падаете в пропасть, а еще если вас толкнут как в 3д игровых пранках на ютубе (главное заранее убедиться что сердце "зрителя" выдержит "приключение")).
[Есть системы сенсорной депривиации. Если в неё поместить что-то вроде генераторов вибро или водных потоков (электростимуляции (так чтоб по МРТ был тот же отклик в мозге)) то можно сделать эффект присутствия 5д в отдельных сценах (особенно если данную камеру депривации еще и "вращать" по всем осям), но будет проблема отсутствия свободы движений или камера должна быть вертикальной(по факторам безопасности вряд ли такая камера пройдет тесты)]
Подобные методы оцифровки (при наличии средств) и если они будут реализованы - могут превратить в 5д контент любое существующее видео и на ходу его улучшить на пару балов зрительского рейтинга(но это уже в новых главах).
***
Есть ресурсоемкие спецэффекты и технологии реалистичности с громкими названиями (что продают условно новые компьютеры и видеокарты). Но увидеть все эти спец эффекты их на конечном медиа могут далеко не все т.к. надо еще заставить игроделов их применять и должна быть реалистичная статистика применимости топовых видеокарт в онлайн играх. Это все интересно и возможно все это и даже больше применяется при рендеринге фильмах уровня "Планета обезьян 24".
***
В игровых движках есть проблема наложения несовместимости текстур при кастомизации при серьезных модификациях тела например.
Если есть сложности с игровыми текстурами при кастомизации, то ИМХО по возможности должен использоваться гибридный подход к рендеренгу таких косяков чтобы устранить косяки отображения текстур и адаптировать объекты друг к другу с учетом физики. Общую картину должны рисовать традиционные технологии с учетом физики, а детали уже должны рисовать нейросети как фильтры улучшайзеры со слоями [скелет мышцы кожа одежда волосы].
***
Теория сохранения визуальной составляющей. Если визуальная составляющая упрощается(через мультипликацию например), то ИМХО конечный продукт должен быть более ярким, а эмоции персонажей должны быть более выразительными, а иначе чловек и заснуть может от условной сенсорной депривации.
***
Контент (качество реалистичности) не должен отвлекать от сюжета или вырывать из погружения. Хотя человек ко многому привыкает. Главное чтобы качество медиа не было рваным и не прыгало. В одном медиа все должно быть выдержано в одном стиле. (хотя для каких художественных школ это вероятно капитан очевидность но для условного ИИ не обязательно, т.е. ИИ должен придерживаться стандартных рекомендаций из художественных школ к созданию медиа проектов).
Противоположность этому вау эффект от просмотра. Но обычно захватывает как раз сюжет, а не визуальная составляющая.
***
Некоторые моменты на пределе отношения к ч.1:
Примечания к ч.1
[**]Можно посмотреть классифицации ии (полуофициальную).
04:04 Системы - эксперты в конкретных областях
05:48 Мыслящие и аргументирующие системы ИИ
https://www.youtube.com/watch?v=LQMh9lSePdk
*Некоторые субъективные оценки ИИ и их возможностей от тех кто вроде как чуть больше варится в теме изнутри - есть в другом видео:
https://www.youtube.com/watch?v=8iVYFpSz6lc
* 1Д - условный идентификатор текста, сценария, промптов, субтитров, образцы вокала.
Ну что тут можно сказать? Да, направление скорее всего будет востребовано. Насколько будет "широким фонт" ломанувшихся в тему - зависит от сложности реализации. Как правило, пионеры - стараются, делают всё на пять с плюсом. А вот последователи - включают "оптимизацию" - и рожают Майнкрафт. Причин того, что конкретно в этой теме будет иначе - пока не видно. Тем не менее - ну хоть какая-то польза от ИИ будет. Вдруг, например, кто-то начнет учебные материалы действительно качественные делать?
Продолжаем наблюдать.
Комментарии
Хех, похоже, сперва такое надо предлагать не Голливуду, а ПоркХабу
Как некогда именно он стал главным драйвером для развития скорости интернета, так в будущем может стать драйвером для развития генеративного ИИ) Благо, библиотека моделей очень богатая
ГЛавное, чтоб владельцы сильно не светились, чтоб актрисы и вообще любые девушки не затаскали по судам А то представьте платформу, где можно сгенерировать эроконтент любого жанра с любыми персонажами
Ресур будет шикарной базой для психолугов.
Каких только извращенцев там не будет.
угу и большая часть будет не извращенцами, а товарищами из анекдота...
Нашим лесорубам в Сибири подарили суперсовременную японскую бензопилу ну
и решили наши рабочие ее испробовать. Взяли они небольшое березовое
полено...
"Вжи-и-х"- сказала пила.
"У-у-у мля..."- сказали рабочие.
Взяли бревно побольше...
"Вжи-и-и-и-и-х"- сказала пила.
"У-у-у-у-у-у мля..."- сказали рабочие.
Взяли огромадное бревно из векового дуба...
"Вжи-и-и-и-и-и-и-и-и-и-х"- сказала пила.
"У-у-у-у-у-у-у-у-у-у мля"- сказали рабочие...
Взяли рельс...
"Бздяк"- сказала пила...
"А-а-а мля!!!"-сказали рабочие.
- И пошли они дальше пилить простыми пилами.
Мне так думается. Уже давно есть куча ресурсов, где все дегенеративные извраты собираются и они уже давно подсчитаны и изучены. Да даже порнхаб сойдёт, думаю.
Данный рынок доступен как частным издательствам так и частным инвесторам (там где юрисдикция позволяет). И где в ближайшем будущем начнется золотая лихорадка. За который будут бороться в т.ч. предприимчивые китайцы вместо крипто майнинга будут майнить его(т.к. объем инвестиций схож, а отдача выглядит более перспективной). И судя по статистике там есть за что бороться и на чем зарабатывать.
https://bedbible.com/porn-industry-revenue-statistics/
И полагаю будут экономические зоны, где национальное законодательство в области цензуры и ограничений [для продажи другим странам] (с блокировкой части контента или IP для местного региона) не будет работать.
Зачем представлять? Их уже навалом. Ссылками не побалую, но вот самая безобидная платформа СиАрт. Любой жанр, любые персонажи.
Ну извините, был не в курсе) Я в телеге видел только ботов для раздевания дам.
Ну и Кандинский когда-то мог генерить голосисых девушек, как сейчас -- не знаю, могли и ограничения уже поставить.
Deep nude в помощь.)
Ограничений там навтыкали выше крыши. Но, при правильных промптах он и сейчас генерит их как из ружья. Прочие сетки - тем более.
Унылая однообразная хрень.
— Нет, Киркоров мне не нравится. Слащавый он какой-то, подкрашенный весь, подпудренный(с)
Там снизу написали что однообразная хрень, вот точно как из под одного штампа.
Это Стейбл Дифьюжн не балует разнообразием. Вот еще один из бесплатных клонов СД "artgeneration".
Сам я этой хренью не пользуюсь. Есть более лучшие.
Да! Без сомнений здесь гораздо лучше, но всё равно сильно бросается в глаза что неживое. Это как с современной музыкой - все уже точно знают что цепляет слушателя (даже умное слово придумали "хук") и куча программ для написания музыки, только слушать нечего.
Как сказал один из героев культового аниме Beck - ты пытаешься писать о том, что сам не пережил. Может как раз в этом всё дело.
Поменяйте слова генеративный ИИ на дегенеративный. По-моему, будет ближе к истине.
Я вот именно так и прочёл, по Фрейду. Видать, не случайно.
И в который раз хочется сказать всем попугаям - нет никакого ИИ, хватит повторять этот тупорылый маркетинговый слоган.
Есть платформа где (пока еще) большая часть людей реальные:
Удивляет лишь одно. Почему все это еще не реализовано. Видимо люди и программисты (условные индусы за рупии (что программят на китайском железе (звучит с натяжкой))) сегодня живут очень богато и миллиарды что просто валяются на дороге им совершенно не нужны.
Речь идет о том, что живые актеры и режиссеры станут мало доступными для пипла, которому будут скармливать второсортные поделки ИИ.
Есть будут червяков, смотреть - порно-роботов, читать не будут вообще.
Уэллс со своими морлоками отдыхает.
Заметим, что расцвет театра пришелся на времена Шекспира, а больше всего фильмов производит Болливуд.
Мне показалось, что вы препятствием видите дороговизну живых актёров. Не знаю структуру бюджета современного кино, но мне кажется, что зарплата актёров там составляет хрен да маленько. Основная часть - техническая.
Вот, снижение стоимости технической части понизит порог входа для мелких студий, домашних умельцев и т.д. Часть контента будет безобидной. А часть такой, для которого не возможно задействовать живых актёров. Контролировать это практически не возможно будет. Если больших игроков ещё можно было контролировать, когда цена входа была высокой, то шир.нар.массы совершенно не возможно.
Мне представляется, что именно гонорары звезд являются той жабой, которая душит их киноиндустрию.
Техника, особенно, цифровая, все время дешевеет.
Тысячи лет большая часть населения не имела доступа к "живым актёрам и режиссерам", обходясь народным своими силами: все эти пляски-хороводы, пение многоголосое, и эпические саги и частушки срамные, плюс шаман/жрец/поп для чувства сопричастности. И ничего, жили как-то. В основном другие проблемы людей заботили.
Они сами выступали в роле режиссеров и актеров, все-равно тренировали воображение. В том мире, куда мы движемся, люди будут только раскрывать клювики и глотать полупереваренную кашицу.
Но это было "органическое искусство" того времени.
Людей было мало, выживаемость низкая, но люди имели возможность потреблять настоящее.
Сейчас людей много, если все попрутся в театры, то точно на всех не хватит.
Как говорил классик:"Важнейшим искусством для нас является кино и цирк"
Цирк они себе сделают.
Уже сделали.
Он так не говорил.
Служба испорченных цитат: Ленин о кино
Я имел в виду другого классика.
Мой говорил именно так.
Зато на окраинах Вселенной уровень повысится.:)))
Всякие "матрицы" ещё в 90-х снимать начали, а мимику и пластику человеков для этих виртуальных зрелищ до сих пор сперва на живых актёрах, облепленных "маячками", записывают и только потом дорисовывают. То есть даже живые художники реалистично изобразить такое не могут. Откуда уверенность что это сможет ИИ? Что он не буратин деревянных будет малевать?
Да всё они могут уже лет 15 как, просто мокап с живым актером все еще гораздо дешевле. А вот если эти технологии станут дешевыми, причем актеров не придется возить на места съемки, тратиться на съемочную группу и прочее - они вымрут за несколько лет наглухо. Джеки Чанов и Том Крузов слишком мало и если будет возможность получать деньги чисто за своё лицо - да они и так это делают сейчас для промо продукции... просто будет не 50% денег оттуда приходить, а 100
Самый простой пример из статьи про мимику что уже делается как два пальца.
Почему вы думаете что ИИ не сможет сделать мимику/ пластику по написанному сценарию ( с подсказками режиссера), когда самому ИИ над общим содержанием видео особо думать не надо (только над деталями)? А если нет подсказок режиссера, то возьмет подсказки (как что-то делать из каких позиций снимать) из режиссерских книг и просто из медиа и будет делать как сделано в топовых медиа, в подобных ситуациях.
К примеру будет делать аудио треки по промптам, где часть особенно на других языках звучит или бредово или с акцентом (пока). Ссылка из статьи:
По аналогии с этими двумя видео будут делать видео контент с указанными персонажами в указанной локации в указанное время суток (все остальное ИИ додумает сам, используя шаблоны и образцы из свой накопительной базы данных). А если чего-то в деталях не будет в готовом виде, то фриленсер актер на удаленке сбацает на хромокее за три копейки.
***
Главное в фильме - это сценарий.
Story.
Их катастрофически не хватает.
Потому и снимают каждый год "Анну Каренину" и "Мушкетеров".
Пусть ИИ научится писать, как Дюма или Толстой.
Не надо сразу кино.
Рассказ напиши.
Чтобы он за душу трогал.
Написанный ИИ научно-фантастический рассказ впервые в истории победил на литературном конкурсе в Китае
В Японии роман года оказался написан искусственным интеллектом
Были еще новости что рассказы ИИ оказывались в топ чартах и были проданы миллионными тиражами.
***
Все люди разные. То что трогает вас или меня очень вероятно не будет трогать остальных 90+% людей. Это следует учитывать при подобных запросах и завышенных ожиданиях.
Вот если бы вы сказали: Что меня тронули вот эти 20+ произведений - напиши 10 таких похожих. Это вероятно был бы другой вопрос. (Но об этом в следующей части).
К сожалению чтобы написать готовый сценарий или рассказ (без участия человека) нужен ИИ уровня gpt-4o или даже лучше. А ИИ такого уровня в ближайшие года 3+ контролируются пока западом. И особенно когда речь идет не о рассказе, а о каком ранобэ (что конкретно для меня представляет больший интерес чем любые 1к+ рассказов) здесь в области ИИ даже западу еще лет 5 расти.
***
Мы также жадные нам нужно все и визуал и содержательная часть (поэтому и мультимодальные зрелища) и в утроенном количестве. (собственно поэтому и возникла статья).
Это совсем не то.
Фантастический рассказ - это не случайность.
ИИ может написать только подражательный поток сознания, который будет выглядеть фантастическим..
Он про человека и его чувства ничего не знает.
Мне кажется, что если бы в магазинах массово продавались бы подобные произведения, то их никто бы не покупал и гонялись бы за человеческим контентом.
Помните фильм "Лучше не бывает"?
Или "День сурка"?
Какая там "матрица"?
Фильмы для людей.
Малобюджетные и прибыльные.
А Гарри Поттер - для дебилов.
Если развивать дальше мысль, то не только актеров и писателей заменит ИИ. Туда же идут люди науки. Чуть позже.
Это вряд ли, создавать новое нынешний ИИ вряд ли способен, только компоновать на основе уже имеющегося. Творцам он не грозит, а вот ремесленникам вполне.
Имитацию науки можно и нужно заменить на ИИ уже сейчас. А также сделать там ИИ контроль 24/7 за всеми деятелями такой науки и за каждой потраченной копейкой, с целью поиска коррупционных схем и схем попила.
Нет никакого ИИ.
Есть имитация ИИ.
Работу мозга можно трактовать как совокупность физических и химических (а не одно ли это и то же?) процессов. Почему бы не реализовать цифровую модель этих процессов?
Пока не умеют.
НС - это не интеллект, а ассоциативная память.
Нихрена себе вопросик. Почему бы?..
Например, пока неизвестно, нужно ли моделировать две тысячи триллионов триллионов атомов для того, чтобы получить мозг и его интеллект, или можно обойтись моделированием меньшего числа элементов.
Пока пытаются обойтись меньшим числом, примерно на 15 порядков меньшим.
Лев Николаевич Толстой видимо в курсе был как оно все будет (или уже было) с такой точностью все в своих произведениях описывал. Готовый шаблон для ИИ фильмов.
Надо внимательно изучать Толстого, он конечно детально писал. Но что-то явно опускал))
Но есть другой пример. У Толкиена, например, нигде не сказано, носил ли Арагорн штаны – известный прикол.
Такая же история обыграна у Стругацких, где в виртуальном мире симуляции посредственной книжонки дама в шляпке была голой и в шляпке, потому что другой одежды упомянуто не было)
Но нейросети уже с этим справляются - если вы скажете сгенерировать картинку дамы в шляпке, скорее всего она будет в какой-то одежде) однако возможны варианты)))
я один прочитал как "дегенеративный"?
Замечательный случай процитировать бессмертную фразу: "Если абстрагироваться от трудностей реализации, ..."
Все видели раскрашенные фильмы.
Все хорошо, даже в фильме "Небесный тихоход" летные куртки получаются, как из магазина.
Но не лица.
Их раскрасить невозможно.
Там огромная информация в этих цветах содержится.
При раскраске не передаётся.
Вот когда ИИ научится реалистично раскрашивать лица, тогда и посмотрим.
Попробуйте методы в видео Как раскрасить чёрно белый фильм?
Но лучший результат был бы по рецепту под спойлером:
Хорошие примеры реставрации:
Оцифровка и реставрация видео с помощью нейросети
Имея пару фото крупного плана можно восстановить большинство кадров дальнего плана.
https://habr.com/ru/companies/cloud4y/articles/666390/
Во многих примерах можно заметь (хотя надо с микроскопом ходить какие тестовые ролики реставрировались, а какие нет(просто демо)). По ссылке ролик с Мерлин Монро по данному методу явно не реставрировался, а может и вообще не реставрировался.
***
Полазил в поиске как создавать видео / фото с лицами и он вывалил.
Invideo как бесплатный инструмент создания видео по тексту. И ссылку на еще 18 подобных инструментов.
11.2023 18 лучших ИИ-генераторов видео: как сделать видео без больших усилий
Возможно там нет фотореалистичного качества т.к. SORA вроде в начале февраля заявлена. И SORA может(для избранных) генерировать видео любого содержания в отличии от.
Но можно протестировать для каких демо роликов местами обещают что бесплатно(есть реальные прайсы сколько за полнометражку) и не 10 секунд в демо. Для самого продаваемого сектора медиа можно спросить безобидные ролики про какую гимнастику или йогу или балет большим планом. Или попытаться заставить группу персонажей сыграть в wiki/Твистер_(игра) как самый сложный тест на видеоконтент. Перед этим надо смотреть есть ли что-то подобное в качестве примера на ютубе.
Был кусок видео демо на что способны современные нейросети (в плане апскейла и повышения качества) при реставрации видео. Где-то потерялся. Пока искал наткнулся на ролик:
AI Dance Girls: Virtual Performances Brought to Life | Dance girls created by AI
Есть недостаток голова повернута практически в одном направлении (и возможно есть артефакты длинны шеи). Может еще косяки есть. Но попадание в мелодию и такт много лучше чем у людей на подобных роликах(если там люди). Скоро и не различить будет. Надо быть подписчиком на канал чтобы распознать что не ИИ или надо внимательно читать подпись к видео.
Если я легко узнаю человека, то это вовсе не означает, что смогу его нарисовать.
НС легко опознает объекты из своей таблицы.
А сделать deep fake - это уже сложная программа, я бы такую не смог написать.
[зачем писать самому если можно заставить (условно допилить существующей софт напильником) или нейросеть (бесплатно) или индусов, за скромный или не очень прайс]
Когда что-то появляется опенсорсе(как в данном случае), то начинает плодиться с устрашающей скоростью. А также растут возможности по обработке нескольких лиц.
Есть серьезные ограничения при повороте лиц. По идее должны быть более профессиональные инструменты работающие с 3Д аватарами
(если у вас есть много фотографий под разными углами)
есть сторонние сервисы которые создают такие 3Д аватары (по фтографиям) и с которых потом можно сделать фотографии "360" со всех сторон и углов (что-то из этого (в какой-то из программ для дипфейков что принимает много фото (или сразу 3Д аватар а по идее нужен именно такой) вроде упоминались такие) по идее должно сделать дипфейк фактически безупречным (без артефактов)). Но это надо с микроскопом лазить разбираться.
Для шустрой работы вроде необходима мощная видеокарта Нвидеа.
Если нет видеокарты, но много лишних денег - есть сервисы что сделают всю работу этим инструментами за вас за ваши деньги через веб интерфейс.
Если бы у вас было столько денег как у условной компании "Крупный план" (или их заказчиков кто реставрировал "Небесный тихоход"). неужели нельзя было бы допилить какой-то существующий опен сорсе движок дипфейка (чтоб он принимал динамичный аватар с движением челюсти (как все это делается в голливудском софте для имитации лиц и эмоций)) какими индусами за скромный прайс?
Как сделать статичный 3д автатар (зачастую это должно хватить для дипфейка если освещение в видео не скачет)
https://www.youtube.com/watch?v=gLnJk5_r5aM
https://www.youtube.com/watch?v=WDRcTepCrms
платный инструмент(?) Если хорошо поискать, полагаю, можно найти и бесплатный.
Только лень мешает что-то делать достаточно качественно. По одной из ссылок в предыдущем ответе где платные услуги реставрации вас ИМХО проконсультируют могут ли они использовать дипфейки и аватары для реставрации насколько данная технология уже готова в России.
Страницы