ИИ-художник от Сбербанка – хотели как лучше. А как получилось?

Аватар пользователя Olvik

У всех на слуху чат-бот ChatGPT от компании OpenAI – ИИ-ассистент, способный работать в диалоговом режиме и поддерживающий запросы на естественных языках. Несколько меньшее внимание привлекает другой ИИ-ассистент, на основе нейросети DALL-E тоже от OpenAI, который способен генерировать качественные изображения, исходя из описания на естественном языке. ИИ-дивизион Сбербанка в конце 2021г. объявил о создании отечественного аналога  - ruDALL-E, который с тех пор прошёл несколько генераций и в настоящее время доступен для тестирования всем желающим. Проект призван, по мнению экспертов, решать достаточно серьёзные содержательные проблемы на пути создания сильного ИИ. Что удалось сделать к настоящему моменту? Решил протестировать и изложить свои предварительные впечатления.

 

Введение в проблему «ИИ-художник»

 

Недавно в журнале «Вопросы философии»(№3, 2022) вышла статья К.А.Анохина (акад.РАН, нейробиолог), К.С.Новосёлова(Нобелевский лауреат по физике), С.К.Смирнова (лауреат Филдсовской премии, математик), А.Р.Ефимова (вице-президент Сбербанка), Ф.М.Матеева (МГУ) «Искусственный интеллект для науки и наука для искусственного интеллекта». Видные учёные рассуждали (каждый в своей предметной области), что может дать ИИ физике, математике, биологии и, наоборот, как каждая из этих наук может помочь в развитии ИИ. В принципе, никаких откровений я для себя из этой работы не почерпнул, и упоминаю о ней лишь потому, что известный моему читателю К.А.Анохин, говоря о вкладе ИИ в нейробиологию, ссылается, как раз, на проект ruDALL-Е. Речь идёт о стоящей перед нейробиологами задаче реконструкции трансформации зрительных образов, воспринимаемых мозгом, сперва в осмысленную информацию, а затем и в поведенческие реакции. Анохин ссылается на недавнее пионерское исследование в Гарварде с помощью генеративной искусственной нейросети XDREAM, позволившее выбирать действительно важные для нейронов образные фрагменты окружающей действительности и синтезировать на их основе сложные изображения, в которых причудливо переплетались отдельные признаки мира. Компания OpenAI применила этот же метод максимизации ответа для исследования того, что «видят» нейроны в глубоких слоях их новой нейросетевой структуры CLIP (Contrastive Language-Image Pre-training). Оказалось, что для рецептивных полей нейронов этой сети свойственна такая же странная картина склеенных из многих признаков, но узнаваемых изображений, как и для естественной нейросети. Похожей технологией является и ruDALL-E, которая генерирует изображение на основе введенного текста. Таким образом, смысл развития и изучения подобных технологий состоит в достижении понимания неких общих закономерностей кодирования и распознавания образной информации, что позволит существенно продвинуться в построении более совершенных моделей ИИ.

 

Кратко о проекте ruDALL-E

 

Достаточно подробную информацию о проекте  ruDALL-E можно найти в публикации Д.Димитрова (исполнительный директор по исследованию данных, Сбербанк) на Хабр (на неё в вышеупомянутой статье ссылается К.Анохин). Я остановлюсь лишь на ключевых моментах.

1.   Исходная для проекта Сбера модель DALL-E — это нейронная сеть, разработанная американской лабораторией искусственного интеллекта OpenAI. Одним из основателей OpenAI является Илон Маск.

2.    В проекте Сбера, первые результаты которого обнародованы в 2021г., активно участвовали команды Sber AI, SberDevices, Самарского университета, AIRI и SberCloud.

3.  На стартовой странице проекта упоминается о возможности вводить запросы-описания на 107 языках. Переход по соответствующей ссылке ведёт на страницу GitHub.com, из которой следует, что в коде используются около 10 сторонних переводчиков (GooglTranslator, microsoft translator, YandexTranslator и т.д.), они переводят иноязычные запросы на русский, который и использовался для создания словаря текстовых токенов (см.ниже).

4.   Долгосрочная цель нового направления — создание «мультимодальных» нейронных сетей, которые выучивают концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы «лучше понимать мир». Здесь следует пояснить, что под неудачным, на мой взгляд, наименованием «мультимодальность» подразумевается способность оперировать потоками разнородной информацией (образной и вербальной в нашем случае), устанавливая между ними необходимое соответствие. Подробно я рассматривал этот вопрос в своей статье об интуиции, когда говорил о концептуальной и эйдетической интуиции. Концептуальная сторона мышления – связывание понятий/терминов с зрительными образами, а эйдетическая, наоборот, - ассоциация образов и изображений с понятиями, которым они соответствуют. Так вот, проект ruDALL-E должен научить симулировать происходящий в нашем мышлении концептуальный процесс представления (воображения) понятий и терминов в виде зрительных образов. И это совсем не простая задача!

5.   В чём, по мнению разработчиков, польза от подобных систем? Они считают, что генерация изображений по тексту «решает две важных потребности, которые пока не может решить информационный поиск:

-  Возможность точно описать желаемое — и получить персонализированное изображение, которое раньше не существовало.

- В любой момент создавать необходимое количество licence-free иллюстраций в неограниченном объеме»

Ну, это, так сказать, тот «выхлоп», который подобные системы дают автоматически, так они спроектированы. Весь вопрос в качестве этих изображений и иллюстраций, насколько они соответствуют замыслам создателей и могут заменить контент, созданный белковым художником. 

6.    Димитров приводит несколько примеров того, как такие изображения можно использовать «прямо сейчас»:

  •  Фото-иллюстрации для статей, копирайтинга, рекламы. Можно автоматически (а значит — быстрее и дешевле) создавать иллюстрации к статьям, генерировать концепты для рекламы по описанию.
    - Примеры, которые он приводит, меня совсем не убеждают (здесь и далее в этом параграфе изображения из поста Димитрова)

Такое изображение использует совсем уж непритязательный (или скупой) редактор рекламы или статьи, имея, потенциально, в распоряжении тысячи гораздо лучших изображений.

 

  • Иллюстрации, свободные от лицензии фотостоков, тоже можно генерировать бесконечно.
    - Я имею дело с фотостоками, знаю расценки и уровень работ, поэтому скажу, что прямо сейчас никто не станет генерировать сомнительного качества картинки, имея возможность за сумму порядка 100-200р. выбрать из тысяч отличных картинок на любой вкус. Речь может идти, разве что, о векторных иллюстрациях. Хотя, некоторые стоки (например, lori.ru) уже начали принимать изображения «от нейросети», требуя «иметь все права на созданные изображения». Но продажи таких «произведений» единичные.
  •  Визуализации дизайна интерьеров — можно проверять свои идеи для ремонта, играть с цветовыми решениями, формами и светом.
    - Для этого есть профессиональные программы с огромными базами предметов интерьера и стилей, а есть и бесплатные «любительские», которые делают то же самое, но попроще. Возможно, кого-то такая возможность и вдохновит, но вряд ли вы сможете обустроить квартиру мечты по такой картинке, которая годится лишь для первого разговора с профессиональным дизайнером

 

 

 

 

 

 

  • Visual Art — источник визуальных концепций, соединений различных признаков и абстракций.
    - Ну, здесь как раз полная свобода для любителей подхода «а я так вижу!», который популярен в определённых кругах. И если захотелось помечтать о «тёмной энергии», то флаг вам в руки, как говорится!

Итак, резюмируя изложенные «примеры целесообразного использования» могу предположить, что никаких глобальных задач (о которых мечтает К.Анохин) разработчики на данном этапе перед собой не ставят, ограничившись оправданием бюджета на примере ряда прикладных задач с туманными перспективами.

 

 

 

 

 

7.  Как это работает?  В своём посте Димитров пытается многословно объяснить методы построения и работы нейросети с использованием терминологии, знакомой лишь узким специалистам в разработке и обучении нейросетевых ИИ. И эта часть мне малоинтересна (как работает алгоритм GPT (Generative Pretraining of Transformers) можно прочитать здесь или здесь). Важен общий принцип, который, по Димитрову, состоит в том, чтобы «обучить трансформер авторегрессивно моделировать токены текста и изображения как единый поток данных». Этот самый «трансфомер» состоит из «энкодера» и «декодера» и преобразует, по некоему хитрому алгоритму, поток входных данных (текстовое описание и опорные, сжатые от исходных 256х256 до размера 32х32 пикселя, картинки-токены) в изображение на выходе. В качестве источника понятий/терминов программа использует словарь (состоящий из текстовых токенов, т.е. последовательностей чисел, в которые по специальному алгоритму токенизации преобразован текст, у ruDALL-E таких токенов 128 (на конец 2021г., текущий статус мне неизвестен), у GPT-1 – 512, у GPT-2 – 1024, у GPT-3 - 2048). Основу архитектуры алгоритма обработки разнородных («мультимодальных») данных составляет механизм Self-attention. Он позволяет модели понять, какие фрагменты входных данных важны, и насколько важен каждый фрагмент входных данных для других фрагментов. Для обучения нейросети использованы данные «изображение-описание» от OpenAI (250млн.пар), китайской CogView (30млн.пар) и некоторые другие. На их основе разработчики создали 120млн. пар изображение–описание, на которых и проводилось обучение.

8. Сформулирую изложенное выше простыми словами. Рассматриваемая нейросеть – это попытка перевести семантику исходного описания в максимально адекватный визуальный образ, используя колоссальные объёмы обучающих данных, где такой «перевод» сделан человеком. Предлагаю посмотреть, насколько удачной вышла эта попытка.

Нарисуй-ка мне художник!

Визуализация объекта

Для тестирования я выбрал последнюю версию ruDALL-E – Kandinsky 2.0 (есть ещё Kandinsky и Malevich). Логично начать тестирование с самого простого. У ИИ-художника есть базовый набор таких понятий/терминов, которые, наверняка, входят в его тезаурус, и которые он просто обязан адекватно изображать. Посмотрим, как он себе представляет такое, достаточно однозначное и простое понятие как «мост». Заодно, оценим каждый из 20 вариантов стилевого представления картинки (вернее, только 18, так как стили «3D-render» и «студийный портрет» я посчитал не репрезентативными для моего анализа).

Сразу отметим, что вариант «без стиля» работает с реалистичными изображениями (фотографиями) и, в отличии от других, не имеет «авторского почерка». Мост выглядит адекватно, а изображение, действительно, передает соответствующую «манеру художника».

 

 

Здесь стили «мозаика» и «хохлома» показались мне неадекватными оригиналу. Интересно также, насколько упростились (в массе своей, по которой и проводилось обучение) современные мультфильмы в сравнении с шедеврами Союзмультфильма.

И здесь, за исключением «иконописи», изображения выглядят достаточно адекватно.

В общем, предметное представление реализовано достаточно сносно.


 Очевидно, что вопрос реалистичности и качества картинки, в данном конкретном случае, лишь в вычислительных мощностях (например, в способности работать не с 32х32 представлением, а с исходными картинками) и объёме обучающих данных.

Чтобы вся эта возня имела содержательный смысл, необходимо научить ИИ-художника понимать, что он рисует – сцены, действия, идиомы. Это и будет визуализация семантики, аналогичная человеческой.

 

Мама мыла раму

 

Предлагаю взять простейший смысловой сюжет, известный каждому по картинке из букваря. Здесь есть объект, субъект и собственно действие. Для теста я ограничился тремя репрезентативными стилями (на уровне комиксов – «советский мультфильм»,  реалистичная картина – «классицизм», авторское представления художника-реалиста – «Айвазовский»).

Человек (нормальный) представляет именно то, что нарисовано в букваре (верхняя картинка), т.е. маму (дочка рядом указывает на то, что это именно мама, а не женщина с низкой социальной ответственностью), окно (объект действия) и собственно процесс мытья. Что в данном случае «увидел» ИИ-художник? Ну, «без стиля» он увидел лишь рамку картины (а не оконную раму), в двух случаях он увидел маму (изобразив ребёнка рядом). В случае «союзмультфильма» есть подобие процесса мытья (чего только не найдёшь в советских мультфильмах!). А вот «Айвазовский», который, в натуре, сроду ни мам, ни мытьё не рисовал, оплошал!

 

Завтрак австралопитека

Для следующего задания я выбрал осмысленный сюжет с использованием понятий, одно из которых, наверняка, не входит в тезаурус, и по которому нейросеть не обучалась. Как она поступит?

Как ни странно, в сети полно вариантов того, как выглядят австралопитеки за завтраком (один из них приведён в начале). Кстати, ещё одна семантическая тонкость – завтрак – это и набор продуктов/блюд, и процесс их потребления.

 

 

 

 

 

 

Видим, что «без стиля» художник видит именно продукты (причём, достаточно реалистично), во всех остальных случаях изображена трапеза. Австралопитек, как и ожидалось, проигнорирован. Айвазовский от классицизма отличается незначительно: завтракают бородачи (наверное, взятые с картин о кораблекрушениях), но композиции очень похожи.

 

Считайте меня Кандинским, ну или Айвазовским

 

Следующий тест – попытка оценить, насколько состоятельны претензии авторов нейросети на правдоподобную передачу манеры письма известных мастеров. Ясно, что в таком случае обучение ведётся именно по картинам конкретного художника. Вопрос в том, достаточно ли это для передачи его авторской манеры. Я выбрал наиболее интересные для меня стили – «Кандинский» (его стиль эксперты именуют «абстрактный экспрессионизм») и «Айвазовский» (маринист). Здесь достаточно естественно брать название работы мастера и предложить ИИ-художнику воспроизвести свой вариант визуального представления.

Согласитесь, что ничего общего с манерой Кандинского «произведения» ИИ-художника от Сбера не имеют. Да, он постарался отличить простой пейзаж от зимнего и романтического, но узнать в этих изображениях именно Кандинского вряд ли кто бы смог. Я более чем прохладно отношусь к творчеству Кандинского (совсем недавно я освежил свои впечатления в «Новой Третьяковке»), но в его картинах что-то есть. Их можно рассматривать. Например, «Романтический пейзаж» лично у меня навевает ассоциации с видами из «Золота Мак-Кены»: всадники скачут по скалистой местности, скала-палец, золотой каньон  и т.п.  А картинки от ИИ не вызывают никаких эмоций.

С Айвазовским немного лучше. В случае «Неаполитанского залива» ИИ-художник не знал, что имеется в виду ночь, а вот дневной сюжет получился неплох. Однако, нет у ИИ "привязки по месту" (Везувий), которая присутствует у Мастера. Сносно изображено и кораблекрушение (и композиционно, и по цветовой гамме). "Произведение" от ИИ, позволяет, при известном воображении, заподозрить в авторе Айвазовского

 

Выводы

 

1.  Настоящее тестирование не предполагает глубокомысленных заключений о потенциале технологии DALL-E в силу малой выборки и субъективного подхода к оценке результатов. Однако, свои впечатления от знакомства с этой технологией я изложить могу.

2.   Пожалуй, с известной доработкой, заявленные задачи – подготовка рекламных материалов, непритязательные иллюстрации «на лету», Visual-Art – эта технология выполнить позволяет. И, если этим и ограничиться, то никакого продвижения в сторону сильного ИИ, она не гарантирует.

3.   Одна из основных задач на пути к сильному ИИ – научить машину понимать так, как это делает человек. Если ограничиться только текстом (а это ChatGPT), то весь комплекс возникающих проблем хорошо описан в длящейся десятилетия дискуссии вокруг теста Тьюринга и «китайской комнаты» Д.Сёрла (я описывал эту полемику здесь). Добавление к текстовому ещё и образного измерения понимания многократно усложняет эту задачу. Согласитесь, далеко не каждый из нас способен адекватно вербально выразить, возникающие в сознании образы, равно как и решить обратную задачу, например, представить себе как «гусь свинье не товарищ!». Здесь уместно вспомнить героя знаменитого романа Орлова «Альтист Данилов», который мог, при желании, мыслить мелодиями, чем ставил в тупик демонов-экспертов, изучавших его сознание в режиме онлайн.

4. Никаких признаков "понимания" того, что он изображает, ИИ-художник не демонстрирует. Да, вам может повезти и он, вдруг, нарисует именно то, о чём вы думаете. Это лишь свидетельствует о сильной удаче - в обучении использовался корпус данных, точно соответствующих вашему запросу.  Вариантов простых (даже не идиоматических!) фраз - бесконечное множество (буквально!). На все случаи обучающие данные никогда не подобрать. Нужно, чтобы ИИ "был воплощен в мире" и обучался сам. Ну, это уже совсем другая история ( я обсуждал этот казус здесь).

5.  На мой взгляд, способ построения и обучения подобных нейросетей не даёт надежды на то, что ИИ научится понимать то, что он говорит или рисует. И в этом я согласен с Сёрлом. Я не разделяю оптимизм К.Анохина, что подобные ruDALL-E технологии способны дать исследователям представление о способе взаимодействия нашего сознания с окружающим миром и воплотить этот способ в адекватных алгоритмах. Повторюсь, что это не экспертное заключение, а моё личное впечатление.

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Granderator
Granderator(7 лет 2 недели)

Классицизм прям вообще хорошо получается. Как теперь спать то, кошмары же замучают?

Аватар пользователя XS
XS(10 лет 6 месяцев)

Может они Босхом свой ИИ кормили?

Аватар пользователя Сергей Сущенко

Так точно! Это же дегенеративные западники, кормили тем что попроще. Ибо Веласкеса, Репина, Да-Винчи он не осилит.

Аватар пользователя kv1
kv1(8 лет 7 месяцев)

Может они Раму с Шивой перепутали?

Аватар пользователя Иван Помидоров

С пальцами у них всегда проблемы.

Вот подборка не пригодившихся рисунков при иллюстрировании книг.

Многие профессии скоро станут гораздо меньше востребованы.

https://t.me/neurogenial

Канал замечательного писателя Павла Иевлева.

Книги тоже рекомендую к прочтению.

 

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Отличный канал!

Там картинки от оригинала - DALL-E от OpenAI. Они гораздо реалистичнее (и из-за обучающей выборки, и из-за вычислительных мощностей). Но с этой нейросетью "играть" гораздо сложнее - там ограничение и по кол-ву генераций за день, да и выбор настроек совсем не очевиден (коэффициенты "реалистичности" и т.п.)

Аватар пользователя Йоган
Йоган(2 года 1 неделя)

  Есть фильм  более менее в тему  называется  Суррогаты  с Брюсом Виллесом

Аватар пользователя sixwinged
sixwinged(11 лет 4 месяца)

- Я имею дело с фотостоками, знаю расценки и уровень работ, поэтому скажу, что прямо сейчас никто не станет генерировать сомнительного качества картинки, имея возможность за сумму порядка 100-200р. выбрать из тысяч отличных картинок на любой вкус. Речь может идти, разве что, о векторных иллюстрациях. Хотя, некоторые стоки (например, lori.ru) уже начали принимать изображения «от нейросети», требуя «иметь все права на созданные изображения». Но продажи таких «произведений» единичные.

 

Ну эмм...

Нейронные сказки Г. Х. Андерсена. Часть 2 Midjourney, Арты нейросетей, Цифровой рисунок, 2D, Сказка, Ганс Христиан Андерсен, Сказка Дикие лебеди, Оле Лукойе, Гадкий утенок, Снежная королева, Длиннопост

 

Я бы сказал что подобные иллюстрации, причем не выбранные из фотостока, а сгенеренные по тексту с вашими хотелками при рисовке настоящим художником будут стоить далеко не 100 и не 200 рублей (это принцесса из "Диких лебедей" Г.Х.Андерсена)

И разница между тем, что выложил автор топика и тем, что линканул я... сколько? 2 года?

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Не вижу противоречий! По фотостокам такие изображения не ищут!

Я же написал, что в области Visual-Art у этой технологии есть перспектива. Ну и что? Там, как раз, никакого понимания не требуется! Я  так вижу - и отвяжись!

 

Аватар пользователя Vladyan
Vladyan(9 лет 6 месяцев)

Судя по стервозному взгляду - сисек у барышни нету (в смысле  - единичка в лучшем случае)... smile10.gif

Аватар пользователя aigo
aigo(5 лет 6 месяцев)

Где промты?

Я могу и в stable diffusion, и в midjourney нагенерить по любому запросу такую фигню, что можно поржать над "тупой нейросетью" будет без проблем.

Нейросеть - это инструмент, инструментом надо уметь пользоваться, а не просто "тыкать" кнопочки. Хочешь результат - будь добр, понимай, как его генерируют и как правильно поставить задачу.

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Хочешь результат - будь добр, понимай, как его генерируют и как правильно поставить задачу.

А как правильно? 

Поясните, пожалуйста! 

Аватар пользователя aigo
aigo(5 лет 6 месяцев)

Надо либо читать гайды по промтам, либо пользоваться ресурсами с каталогами результатов, к которым промты идут в комплекте.

А в идеале - совместить.

И, собственно, генерировать свои изображения, постоянно применяя чужой опыт. Со временем набьёшь руку и будешь получать то, что хочешь, а не то, над чем потом улюлюкают.

И да, у той же stable diffusion огромная куча моделей, каждая из которых заточена под свои задачи - какие-то под портреты, какие-то под животных и т.п. Нужно применять их, а не только на базовой сидеть.

А ведь ещё появились разные LoRA, которые дают вообще прекрасные результаты, их тоже надо применять.

Мы пока даже близко не подошли к уровню единственной кнопки "сделать з%?№ись."

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

И, собственно, генерировать свои изображения, постоянно применяя чужой опыт. Со временем набьёшь руку и будешь получать то, что хочешь, а не то, над чем потом улюлюкают.

Если "хочешь" получить реалистичное изображение на любую тему  и не платить licence-fee - согласен, можно допилить (хотя платить, всё-таки, придётся!).

Если цель - понять, как работает наше образное мышление и воплотить это "в железе" - не уверен, что направление верное!

Аватар пользователя bom100
bom100(12 лет 10 месяцев)

Это всего лишь определенный технологический шаг на пути генерации продукции в визуальном искусстве.

Краткая история будет такая. Италия породила живопись (масло) и развила ее, но цена художественного произведения была слишком высока. И тут за дело взялись голландцы-капиталисты и менеджеры от искусства. Вы знаете как работала команда живописцев под руководством Рубенса?

Рубенс (в зрелые годы) создавал произведение в целом (композицию) размечал полотно и прорисовку поручал своим подмастерьям. Таким образом, его мастерская генерировала огромное число произведений и удовлетворяла запросы как в Европе, так и в Америке. Счет проиведениям искусства шел на корали (сколько кораблей отправили?) ..

Вместе с этим в дело пошли и достижения в области оптики (то есть картинку в общих чертах получали с помощью оптического инструмента - практически фотографического изображения), а остальное - детали - уже заполняли побыстрее -  https://sozero.livejournal.com/9928.html?ysclid=lef2ighmtk900322418

И уже после появления настоящей фотографии (в том числе - цветной) живопись стала вытесняться, трансформироваться и уходить от классического изображения (зачем? если есть фото??) и стали появляться новые стили и подходы: французы попытались передать мимолетность движения, кубизм - основу композиции - разложение на основные геометрические элементы изображения, сюрреализм - воображаемые картинки  как таковые и пр. и пр. 

Аватар пользователя Пеннигер
Пеннигер(12 лет 10 месяцев)

Нужно придавить себе максимально точное словесное описание образа, и тщательно его зафиксировать, найти возможные противоречия в описании, иногда методам тыкай, картинка может радикально поменяться при изменении второстепенного казалось бы параметра.

Пробовать лучше на специализированных моделях, тип анимэшных, там короткие ароматы нормально работают.

Аватар пользователя Good Evil
Good Evil(8 лет 8 месяцев)

Похоже, что этот ИИ игнорирует глаголы

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Обучение, похоже, с упором на предметы/понятия, а не действия.

Аватар пользователя Пеннигер
Пеннигер(12 лет 10 месяцев)

Как и SD. Ну не совсем может игнорирует, но почти.

Аватар пользователя Фрол
Фрол(3 года 4 месяца)

DALLe был прорывом, но midjourney  по качеству превзошёл. Поэтому делать аналитику беря то, что уже подустарело - довольно странно.

Готовить сетку надо уметь - prompt engineering позволяет вытягивать и тюнить в нужную сторону картинку. Уже даже и направление исследований отдельное оформилось. Хотя, имхо, это конечно бред - пытаться научно обосновать как правильно стучать в бубен...

Что касается применения и отзывов - "людям нужны не свёрла, а дырки в стенах". Поэтому когда появится приятная графическая оболочка где за пару баксов будет рисоваться то, что удовлетворит пользователей и позволит им зарабатывать этими картинками деньги, то уже будет не важно насколько там general ai под капотом или гномики в африке рисуют. Good Enough is good enough. 

 

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Спасибо, содержательно!

1. Я "играл" с Midjourney. Реалистично (по исполнению, см. канал, указанный в комменте выше), но мало отличается от ruDALL-e содержательно. А ограничений для пользователя - масса, да и времени это потребовало бы гораздо больше!

2

prompt engineering позволяет вытягивать и тюнить в нужную сторону картинку

Не поспоришь! Каков вопрос - таков ответ. Но это именно "танцы с бубнами", о которых Вы пишете. В этом нет никакой доблести и понимания человеческого образного мышления. Главное - это не сходящийся ряд, реальность неизмеримо богаче того, чего можно добиться с "prompt engineering".

3.  

зарабатывать этими картинками деньги

Подозреваю, что это главное, что движет разработчиками. Глубоких научных прорывов не просматривается. Элемент глобальной цифровизации.

Аватар пользователя Пеннигер
Пеннигер(12 лет 10 месяцев)

не совсем нельзя понять про мышление, подбор промпта говорит о мышлении людей, которые описывали исходные образы

 

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Эксперименты над экспериментаторами...

Ну, нейробиологи имеют соответствующие методики

Аватар пользователя Bumba
Bumba(5 лет 2 месяца)

Вот сгенерило... Как вы думаете что это?

 

 

Аватар пользователя sekutor
sekutor(8 лет 7 месяцев)

два раза попытался, в обоих долго висела надпись: до готовности изображения осталось приблизительно 1 сек., плюнул..

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Проверил. Работает плохо. Пример: "Медведь собирает грибы в лису"

ruDALL-E выдал мутанта -медведя с мухоморами:

а должно было быть так:

Хотя с мухоморами ИИ не промахнулся. :)

Аватар пользователя Козломордый
Козломордый(2 года 7 месяцев)

Ребёночек с нижней частью кота, руками копытцами и ещё какой-то культёй, непонятно откуда растущей. Мама-крыса, с красным ртом(кровь?)

А ведь случись такую картину написать какому-то раскрученному художнику от "современного искусства", в ней быстренько бы нашли кучу "глубоких" смыслов.  И копытца бы объяснили и культю. И стоила бы она миллион)))

А вообще, мне это немного напомнило кадр их Чужих 4, там где они увидели генетическую лабораторию и неудачные экземпляры Рипли.

Ну и Босха тоже, да, как выше уже отметили)))

 

 

 

Аватар пользователя Afternoons
Afternoons(2 года 8 месяцев)

С завтраком Айвазовского ИИ конечно погорячился, и немудрено - наверняка в сети картин с завтраком подавляющее большинство от фламандцев, голландцев и прочих мастеров этого жанра. Что в итоге собственно мы и видим. Лимона с полуочищенной кожурой конечно не хватает, но чего уж там...

По поводу мамы, которая мыла раму  здесь вообще что-то осмысленное трудно было ожидать, полагаю даже человеческий разум свежих поколений не до конца осознает, каким образом рама оказалась для мытья на столе, а не там, где ей обычно положено быть - в стене.

Кстати, вот из присутствующих кто-нибудь понимает, почему оконная рама стоит у стола? А между тем каких-то лет 40-50 назад это была обычная картина в частных домах два раза в год.

С Натальей Гончаровой просто какой-то глум случился, она конечно авангардистка, спору нет, но нарисовать мост вдоль реки, а не поперек - это реально будет разрыв творческого шаблона...

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

почему оконная рама стоит у стола?

Скрупулёзно подмечено!

Эволюция смыслов!

Этому можно научить ИИ?

А нужно? 

Аватар пользователя Поллитрович
Поллитрович(9 лет 9 месяцев)

Мидджорни намного качественнее картинки выдает. Жалко платно )))

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

И мне жалко, немного!

Но сути это, поверьте, не меняет (если преследовать сверхзадачу по Анохину)!

Аватар пользователя aigo
aigo(5 лет 6 месяцев)

В ней нет смысла, SD бесплатно даёт результаты лучше за счёт fine tuning

Аватар пользователя Алеман
Алеман(9 лет 11 месяцев)

"Завтрак австралопитека", ну, тут можно сказать, что нейронка поняла, что речь идёт о завтраке, а не о австралопитеке. Вот если "австралопитек завтракает", нейронка проигнорирует австралопитека, то залётsmile57.gif 
Но, вообще, часто пишут про натренированные модели, что из 10-ка проб получите, что хотели.

=====

High detail RAW color photo of a woman 25 years old is artist draws in an art class

Вот тут draws и art будут "поганить" фото - пытаться добавить стиль рисунка. Нейронка может нарисовать сразу и woman и мужика художника. Поэтому посещали мысли, что обученная на русском нейронка могла бы быть очень даже ок. Потому что художница! один объект без всяких уточненийsmile1.gif

Аватар пользователя Mor
Mor(9 лет 9 месяцев)

Красивая женщина

Без стиля

портретная

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Да, есть над чем работать.

На вкус и цвет...Это я про "красивая"

Аватар пользователя Алеман
Алеман(9 лет 11 месяцев)

В 1-м случае нейронка спасовала явно из-за растянутого формата. Формат скорее под "красивая женщина лежит на диване"smile57.gif

Во 2-м, для нейронок существует опция для правки лица - типа дополнительный проход. Не знаю, есть ли такая опция-галка у сбера, и не знаю, как с этой опцией в других сетевых нейронках, по умолчанию она там включена и как... Но то что нейронка запросто может накосячить с лицом это факт, и иногда приходится включать правку лица.

Аватар пользователя калибровщик
калибровщик(8 лет 11 месяцев)

Димитров приводит несколько примеров того, как такие изображения можно использовать «прямо сейчас

Прямо сейчас никто убогие генерации этого ruDALL-​E использовать не будет. Ни в статье, ни в комментах нет ни одного сносного изображения. Ниже были сетования, что:

Мы пока даже близко не подошли к уровню единственной кнопки "сделать зашибись"

И предлагают углубляться в промпты. Могу поспорить. Есть такая кнопка. Я уже приводил примеры, как по простейшему промпту "Аrt by кто угодно" сетка генерит вполне узнаваемый стиль художника. Вернее, такому промпту нужен для затравки простейший префикс. Я использовал цифру 1. Промты были такого типа "1, art by Arthur Rackham", "1, art by Andrew Newell Wyeth". Думается, Артур Рэкхем и Эндрю Уайетт, увидев такое, слегка подошизели бы. Примеры генераций на Рэкхема и Уайетта:

  

Еще примеры с простейшим промптом "Fish":

  

Хотя сильно подозреваю, что сеть просто обучалась на картинах известного гавайского художника Кристиана Лассена (Christian Riese Lassen).

Аватар пользователя Алеман
Алеман(9 лет 11 месяцев)

Это из сберовской сетки рисунки? Мне понравились. А похожесть стилей на стиль художника... если длинный промт напишешь, так большинство стилей "затирается". Наверно, надо знать на какую длину промта тренировали стильsmile1.gif

Аватар пользователя калибровщик
калибровщик(8 лет 11 месяцев)

Это из сберовской сетки рисунки? Мне понравились

Не. Это из практически бесплатной сетки Дрим. Там даже регистрация не нужна. Вот только что проверил на вышеупомянутом промпте "Красивая женщина" с добавлением типа "art by Ilya Repin" (alphonse mucha, ГуставКлимт, Грег Рутковски, Крейг Маллинс, Илья Кувшинов, Эндрю Уайетт). Сами разберетесь "кто из "who".

   

  

  

  

Надо отметить, что просто красивых женщин оно тоже красиво генерит. Но они по умолчанию получаются, как студийные фото, а не арт.

Аватар пользователя Алеман
Алеман(9 лет 11 месяцев)

alphonse mucha легко узнаётся)) Как Илья Кувшинов рисует знаю, но тут его не узнатьsmile1.gif Репина пробовал для аниме модели, адекватно рисует женские пропорции.

Аватар пользователя калибровщик
калибровщик(8 лет 11 месяцев)

Как Илья Кувшинов рисует знаю, но тут его не узнать

И правильно. Т.к. здесь его нет. Не стал размещать на пинтересте. Банальными получились его арты.

Зато Hajime Sorayama у сетки получился на все 100. Но здесь тоже не выложу, т.к. на грани фола:)

 

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Интересный поворот дискуссии вижу я.

Несколько соображений по существу:

1. Да, поделка Сбера - не показатель. Я выбрал его из-за простоты и богатства стилей. Это их и подвело - всё сразу и ничего по-настоящему хорошо.

2. Можно (и это уже сделано в Midjourney, Dream.ai и т.п.) за счёт более сильного движка, повышения вычислительной мощности и специализации и объёма обучающих dataset`ов сильно улучшить качество картинки и стилевое соответствие оригиналу, хотя насчёт Рэкхэма можно поспорить, вот одна из его характерных работ:

3. Доказывает ли это, что подобные нейросети, в перспективе, способны адекватно симулировать образное мышление человека? По-моему - нет! По крайней мере до тех пор, пока они обучаются человеком, а должны это делать сами, научившись взаимодействовать с реальностью так, как это делает человек, т.е. "воплотиться в мир".

Аватар пользователя калибровщик
калибровщик(8 лет 11 месяцев)

хотя насчёт Рэкхэма можно поспорить

Ну, давайте поспорим. Вот подборка Рэкхема на пинтересте.

Вот свежие генерации. Только что понаделал. Замечу, что ИИ рисовал не просто ведьм или эльфочек, а именно "красивую женщину, art by arthur rackham":

  

Доказывает ли это, что подобные нейросети, в перспективе, способны адекватно симулировать образное мышление человека? По-​моему - нет!

А по-моему: Да.

Картинки уникальны и не повторяют ни одну работу Рэкхема. Выдержаны в стиле. Чего же больше?

З.Ы. Ничего нет проще сделать генерацию с более сложным промптом типа "Ведьма летит на метле, art by arthur rackham". И вы не отличите от автора. Но сейчас не стану этим заниматься. Завтра на работу, хоть и "короткий день"

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Ну что, через пару итераций мы подошли к сути проблемы.

И тут надо быть строгим в терминологии.

Если под "симуляцией" понимать имитацию, то вопроса нет - да, можно обучить ИИ так, что только ушлые эксперты отличат "произведение" ИИ от оригинала (также, как и искусные подделки одними художниками работ других, модных и дорогих, художников).

Что это доказывает? - На мой взгляд, лишь то, что ИИ, действительно, умеет "играть в имитацию", что предполагал ещё А.Тьюринг. 

Но понимает ли он, что рисует? Может ли оперировать образами, свободно связывать их с понятиями и категориями в ходе мыслительной деятельности? - Однозначно, нет!

И моё утверждение состояло в том, что указанным путём - совершенствование обучаемой нейросети - никогда не сможет.

Вопрос "понимания" применительно к ИИ обсуждается учёными уже более 40 лет (см. здесь). Однозначного ответа нет. Я в этой полемике придерживаюсь стороны Сёрла.

 

Аватар пользователя калибровщик
калибровщик(8 лет 11 месяцев)

Не поленился. Сделал, как вы сказали. Промпт несложный: fairy with transparent wings flying, art by Arthur Rackham, graphic drawing

 

Ну и кто тут больше Рэкхем? Он сам, или тупой ИИ?

Аватар пользователя Nientemiele
Nientemiele(3 года 1 месяц)

В большинстве приведённых изображений видно, что это не человек рисовал. Поясняю: человек подчёркивает некоторые детали изображения, расставляет акценты. Происходит это согласно его индивидуально биологическо-химическому устройству. Поэтому у каждого свой почерк в искусстве, трудно спутать. У ИИ нет акцентов ни на чём, нет эмоций он мёртв. Нет духовного наполнения, только пустота и имитация более-менее удачная. Безликость и пустота. Произведения передают энергетическую сущность создателя. Мёртвое, без души, не может передать ничего. В общем, это пока никакое не ИИ разумное, а просто большая ЭВМ. Я, конечно, понимаю, человек всегда мечтал Бога переплюнуть, но кишка тонка.)

Аватар пользователя IgorZ
IgorZ(2 года 5 месяцев)

Ради интереса сгенерировал картинку без стиля на тему "пора валить". Получилось

 

В общем, художник не патриот, и не либерал. smile1.gif

Что интересно: на "Пора валить" художник выдал

 

P. S. На слово "тепирп" ("привет" задом наперёд) он выдал чёрный квадрат.

Аватар пользователя EstebanDido
EstebanDido(7 лет 10 месяцев)

Вот. Сделал за час в Миджорней

/sites/default/files/u26802/23%20Feb.jpg

Аватар пользователя Olvik
Olvik(6 лет 2 месяца)

Хорошо! 

Такие картинки могут быть востребованы. Умрёт профессия фотодизайнера на Photoshop/Illustrator.

Эти нейросети, скорее, коммерческий, а не научный проект.

Аватар пользователя Quacker
Quacker(8 лет 3 недели)

ru-Dalle уже появлялась на просторах АШ. Посмотрим как эволюционировала. В том-же порядке запросы. Мне кажется опопсовела.

В прошлый раз мне больше понравилось