 |
Выбирай самого толстого и крикливого
|
 |
 |

Плакат для экопарка «Цепкий хобот» нейросеть нарисовала точно по моему описанию, за один раз. Лучше живого художника, так как кожаный художник десять раз переспросил бы, потом позвонил бы голосом, потом бы всё равно что-нибудь напутал, а потом недовольно сопел бы в ответ на мою терпеливую реплику «сделайте, пожалуйста, так, как написано в техническом задании». Кстати, последний раз, когда мне надо было нарисовать нечто подобное, у меня был бюджет в 100 тысяч рублей, и… я не смог найти исполнителя: двое художников-фрилансеров нужного мне уровня вначале взяли было заказ, но потом по очереди кормили меня завтраками на протяжении двух-трёх месяцев, так что в итоге я потерял терпение, и задача ушла в архив.
На днях случилось нечто тектоническое. Гугловская нейросеть «Джемини 2.5 Про» обошла в рейтинге разумности прошлого лидера от компании ОпенАИ (ссылка). Цитирую: «на арене по всем языкам и почти по всем срезам модель [от Гугла] впереди, зачастую — с отрывом».
Гонка идёт напряжённая, ставки высоки. Проигрывать ОпенАИ не хочет — зарезервированные бюджеты приближаются к сотням миллиардам долларов, если не к триллионам, и у ОпенАИ нет надёжного тыла в виде гигантской корпорации за спиной. Поэтому ОпенАИ ничего не оставалось делать, кроме как выложить на стол приберегаемый козырь: говорящий Фотошоп. Теперь роботу можно просто сказать, что надо сделать, и он через минуту-другую выдаст готовый, не нуждающийся в доработке напильником результат. Качество — четыре с плюсом или пять с минусом, то есть на уровне крепких рекламных агентств с адекватными бюджетами.
Вот запрос, по которому робот выдал мне приложенный к посту плакат со слоном:
Привет, бро! Нарисуй, пожалуйста, предупреждающий плакат. Надпись на плакате: «Хищные слоны! Носите свисток!». Изображение: беспечная красивая девушка, легко одетая, подверглась нападению небольшого двуногого слона. Двуногий слон схватил её и готовится укусить. Девушка отбивается, но тщетно, силы явно неравны. Фон: парк
Как видите, задание выполнение точно, придраться не к чему. И, продолжая тему изготовления рекламы, вот как робот отрабатывает стандартный клиентский заказ на рекламный баннер:
Нарисуй, пожалуйста, рекламный плакат для ларька с шавермой. Вот чтобы красивая девушка, вкусная шаверма, курица где-нибудь и надпись «Нет вкусней шавермы, чем от птицефермы». Всё должно быть весёлым там, сочным, радостным, даже солнечным.

Это был ваншот — попадание в цель с первого выстрела. Можно немного позанудничать и сказать, что у плаката разрешение всего лишь 1000х1500 пикселей, чего мало для качественной печати, но это, во-первых, решаемая проблема, а во-вторых, сейчас всё равно деловая жизнь мигрирует в интернет. Для интернета такого разрешения достаточно (а для поста мне даже пришлось уменьшить картинки — увеличенные версии открываются по щелчку мыши).
Делать фотографии робот тоже может:
Нарисуй, пожалуйста, молодого Дональда Трампа в красной советской спортивной форме. Форма выглядит как красные шорты и красная футболка с круглым вырезом и короткими рукавами. Футболку опоясывает тонкая белая полоса, под круглым вырезом идут дугой буквы «СССР» (кириллицей). Дональд Трамп в хорошей физической форме и довольно улыбается. Фон — видавшая виды стена тренажёного зала с облупившейся шведской стенкой.

Тут робот был менее точен. Я просил белую полосу на футболке, а он сделал вместо этого белый пояс у шорт. Уровень понимания технического задания всё ещё не идеален (хотя и значительно лучше, чем у кожаных исполнителей). Но некоторые вещи при этом робот не умеет делать принципиально, сколько ему ни объясняй. Вот, например, торт-Юпитер:
Привет, бро! Нарисуй, пожалуйста, большой торт в виде планеты Юпитер, лежащий в круглой никелированной чаше на длинной ножке. Диаметр чаши подобран таким образом, что торт помещается в неё без зазора, как бы вырастает из неё, является её продолжением. Слева от торта стоит толстый мужчина в белом халате учёного, у мужчины зачёсанные назад седые волосы и тонкие гангстерские усы. Справа от торта стоит крепкая молодая румынка в синем обтягивающем комбинезоне пилота и в серых облегающих сапогах без фурнитуры. И учёный, и женщина-пилот держат в руках длинные ложки. Они улыбаются, предвкушая, как будут сейчас есть торт-Юпитер. Фон — стена космического корабля с большим иллюминатором, за иллюминатором — звёздное небо. Стиль: фотореализм.

Я предпринял несколько попыток, но мне так и не удалось заставить робота плотно уложить в чашу торт-шар: робот каждый раз оставлял зазор между стенками чаши и тортом.
Улучшать и дополнять фотографии робот может, но с некоторым искажением сюжетов и лиц. Сравните, например:

Возьми, пожалуйста, Ивана Грозного (приложен) более отдалённым планом, по пояс. Также добавь текстом восклицание: «Мало!», которое произносит суровый царь. Используй стилизованный псеводстарославянский шрифт.

На малознакомых моделях кажется, будто попадание идеальное — молодой Дональд Трамп и актёр Иван Черкасов (игравший Ивана Грозного) выглядят для меня в отрисованной версии как настоящие. Однако если вы попробуете прогнать через нейросеть фотографию более близкого вам человека, разницу вы заметите.
А вот ещё один Иван Грозный, но уже не фотореалистичный, а перерисованный по моей просьбе в модном стиле Ghibli. Было-стало:


Можно сделать и обратное превращение, из мультфильма в фотографию. Например:
Привет, бро. На приложенной картинке нарисованы трое животных. Переделай, пожалуйста, картинку в фото. Животные должны остаться шарообразными, то есть быть более-менее строгими мохнатыми шарами на ножках, вот как на картинке, только настоящими, реалистичными, как будто их сфотографировали в реальном мире. У животных при этом должны быть четыре конечности: «ноги» и «руки».
Обрати внимание, что у Нюши, которая сидит, четыре нормальных свиных ноги, которые заканчиваются копытами. У зайца и ежа «ноги» немного отличаются от «рук»


Тут мне пришлось уже сделать 4-5 подходов, так как нейросеть путалась с количеством ног. В итоге я прописал задание более чётко, и робот справился…
* * *
Впервые я увидел компьютерную лабораторию в 1986: мне было 8 лет, и мой отец, программист, привёл меня к себе на работу, чтобы дать практический урок программирования на Фортране. На стене одного из шкафов висел плакат с примитивным изображением, распечатанный на текстовой псевдографикой на быстром принтере. Подобные плакаты, уже пожухлые, висели на шкафах и в середине 1990-х, когда я уже закончил школу и сам устроился работать программистом. Дальше псевдотекст сменился на чёрно-белые картинки с офисным юмором, самым популярным из которых был плакат «Не сдавайся!» — с лягушкой и цаплей. Некоторые раскрашивали его карандашами: лягушку зелёным, нос цапли — красным. Ещё позже офисный люд начал печатать демотиваторы, зачастую сразу в цвете, так как цветные принтеры перестали быть экзотикой.
Теперь плакаты можно уже не только скачивать из интернета в готовом виде, но и делать самому. Например:
Давай сделаем мотивирующий плакат. На плакате — брутального вида лысый волк со шрамом. Он одет в кожаную куртку, спортивные штаны и стильные кроссовки, всё темных оттенков. Волк похож на актёра Джейсона Стетхема.
Рекламный слоган: «От лысых в комнате светлее»

Комиксы робот рисует… своеобразно. Скажу мягко — робот уже умеет делать комиксы, однако продукция нейросети требует пока что существенной доработки. Вот, например, я скормил роботу первые три строфы «Евгения Онегина» и попросил нарисовать чёрно-белый комикс на предложенный сюжет:

Картинки — в порядке, даже хороши, хоть робот и поленился вникнуть в суть происходящего. А вот над текстом надо серьёзно работать: или прописывать роботу задание более чётко, или править текст в редакторе самостоятельно.
Вместе с тем тут есть серьёзное ограничение — одна страница. Когда робот последовательно рисует несколько страниц, получается хуже. Дадим, к примеру, нейросети задание изобразить три кадра для будущей новеллы:
Давай рисовать комикс. Первый кадр (широкоэкранное соотношение сторон) — симпатичная аргонианская дева в костюме горничной убирает комнату в богатом доме. На стуле в ожидании конца уборки сидит дворянин, хомо сапиенс: гладко выбритый, в стильной домашней одежде.

Мне приходилось видеть и более симпатичных аргонианок — более приветливых как минимум — но допустим. Попытаемся продолжить.
Давай следующий кадр: действующие лица те же. Что-то происходит, и начинается лёгкий флирт: персонажи что-то друг другу говорят. Что именно — придумай сам.

Теперь третий кадр. Аргонианке явно нравится внимание хозяина, но она боится, что жена дворянина может застать их в неловком положении. Дворянин проявляет игривую настойчивость

С текстом всё ясно — тут робот растерян, текст надо просто переписывать заново. Ничего сложного, так как речевые пузыри уже есть. Однако обратите внимание на одежду. На дворянине теперь тёмная рубашка вместо светлой, а девушка сменила глухое платье на платье с неглубоким квадратным вырезом. Также у дворянина слегка потемнело лицо, что, впрочем, можно списать или на прилив крови, или на смену ракурса.
Возможно, хорошей повторяемости персонажей можно добиться, если детально описывать их облик, вплоть до каждого элемента одежды. Не уверен. Мне кажется, что пока просто рано: технология ещё не дозрела, надёжную генерацию комиксов мы увидим только в следующих версиях нейросети. Вот что у робота получается отлично уже сейчас, так это обложки. Например:
Нарисуй, пожалуйста, обложку комиксов в стиле 1960-х. Сюжет — приключения бродячей театральной труппы разумных обезьян

Ещё одним практичным применением могут стать инструкции. Они, как и комиксы, нуждаются в доработке напильником или в более подробном техническом задании — робот не всегда правильно улавливает идею заказчика с первой попытки:
Нарисуй иллюстрированный ризограф для дебилов с инструкцией как варить пельмени

Наконец, мощнейший инструмент обрели разработчики: создатели сайтов, видеоигр, приложений для смартфонов и тому подобного. Вот, к примеру, ещё один ваншот — идеальное выполнение поставленной задачи с первой попытки:
Привет, бро! Я собираюсь написать книгу про вымышленную расу круглоков. Сгенерируй мне, пожалуйста, круглокский алфавит. Он должен состоять из пиктограмм, каждая из которых проста в изображении и похожа скорее на стилизованный предмет материального мира (собака, облако, гора, стрела), нежели на букву или иероглиф. Пиктограммы должны быть причастны округлости, но могут иметь, там где это уместно по смыслу, и острые фрагменты.

Полагаю, всем ясно, что вышедшая на рынок киберкисть сделает с профессиональными дизайнерами среднего и низшего уровней мастерства. Однако из новостей можно сделать ещё два важных вывода — уже неочевидных.
1. Под каток роботизации попадут не только рисовальщики упаковки для печенья, но и художники-примитивисты, звёзды Рунета. Эстеты могут возражать, но я настаиваю: исполнительский уровень модных профессионалов примерно соответствует уровню робота, массовая аудитория разницы не ощутит. При этом их идеи (сюжеты, текст) — значительно слабее, чем идеи от огромного сообщества. Ничего личного, просто статистика: 10 тысяч простых пользователей породят значительно более смешной и цепляющий сюжет, чем один комиксёр.
2. Мы разглядываем сейчас яркую оболочку — сидим в восхищении среди бус и маленьких зеркал. Однако следует помнить, что новую игрушку ОпенАИ выкатил нам не просто так, а в ответ на технологический прорыв от Гугла, в ответ на новую думающую модель. Роботы становятся умнее, и последствия роста их интеллекта (да-да, уже интеллекта) будут такими, что мало не покажется никому.
Ну а пока технологический апокалипсис или технологическая сингулярность ещё не наступили, у нас есть время, чтобы порадоваться новым возможностям. Я чувствую себя как больной мутизмом, который долгие годы был вынужден теснить яркие образы внутри черепа, а потом обрёл способность говорить и, наконец-то, может поделиться своими мыслями. Мы избалованы прогрессом, однако это ведь настоящее чудо: объясняешь роботу, что нарисовать, а робот… рисует. Например:
* * *
Нарисуй, пожалуйста, рекламный постер. На картинке красивая молодая девушка с чёрными волосами в стальных доспехах с бордовой поддёвкой, тёмными глазами и меховым воротником. Женщина-воин держит в руке четвероногое животное (питомца), зелёного гоблина. На фоне — вход в пещеру с вывеской «Мир гоблинов» кривым гоблинским шрифтом. Женщина-воин выглядит счастливой, её новый питомец недоумевает, так как он пока ещё не понял, что произошло.
Мотивирующая надпись на постере (снизу): «Выбирай самого толстого и крикливого!»

* * *
Нарисуй, пожалуйста, двухголового мужчину. Одна голова Карл Маркс, вторая голова — Фридрих Энгельс. Мужчина широкоплеч (так как головы должны откуда-то расти). Он одет в сюртук и брюки. Мужчина имеет свирепые, пугающие выражения лиц. В руках он держит окровавленные серп и молот. Мотивирующая надпись на плакате (на русском языке): «Твоя собственность — это кража»

* * *
Карточный стол. Играют суровый мужчина в видавшем виды чиненом сером ватнике и лощёный рептилоид. Ставки очень высоки, в воздухе чувствуется напряжение. Мужчина коротко стрижен, русые волосы, небольшой шрам, тяжёлый подбородок. Кроме ватника мужчина носит серые военные брюки и вычищенные до блеска чёрные сапоги. Рептилоид жирен, но изящен, дорого одет, носит огромный перстень с рубином. На фоне — стена казино, на стене висит средних размеров карта мира. Широкоэкранное соотношение сторон.

* * *
Привет, бро. Нарисуй, пожалуйста, учительницу литературы в стиле Anne-Louis Girodet. Это молодая женщина, только после института. Она носит строгие очки, её чёрные волосы зачёсаны назад. Макияж естественный, его почти незаметно. Учительница сидит за столом (мы смотрим немного сверху), на столе хаотично лежат тонкие зелёные тетради учеников, пара шариковых ручек, указка, учебник, книга Пушкина. Учительница выглядит милой, но серьёзной и сосредоточенной. Её освещает яркий солнечный свет из окна, которое расположено где-то сбоку, за кадром. Настроение: весна

* * *
Нарисуй, пожалуйста. Женщина-собака, одетая в строгое офисное платье, сидит за обеденным столом, мордой к нам. Перед ней стоит тарелка с небольшим ломтем сырого мяса. Из-за края кадра (с нашей стороны) высовывается рука кролика, который предлагает женщине-собаке морковку. Женщина-собака отказывается от морковки характерным жестом поднятой ладони.

* * *
Рисунок цветными шариковыми ручками (четыре цвета): американский заднеприводный легковой автомобиль из разряда тех, которые привлекают внимание на улице. На заднем фоне, за машиной, тоже шариковыми ручками, но слабыми штрихами: огромное призрачное лицо подростка. Суть идеи картинки: подросток мечтает об автомобиле.

* * *
Средней упитанности женщина в открытом летнем платье сидит на табуретке и с интересом смотрит на лежащее в тарелке желеобразное пирожное в виде круглой птицы. Пирожное опасливо смотрит на женщину: пирожное понимает, что оно съедобно, поэтому ему немного страшно.

* * *
Помните, как вы ругали в комментариях ИИ-картинки, а я терпеливо отвечал: «Подождите год»? Мне кажется, ожидание было не напрасным.
PS. Если я невольно прогрел вас на подключение к роботу, и вы хотите попробовать нарисовать что-нибудь самостоятельно, то сделать это можно двумя путями. Самый простой путь — через русский сайт Владислава Январёва, «ВсеЖПТ» (ссылка). Я не уверен, что новая модель уже подключена туда и работает, но теоретически должна, так как картинки генерируются через старый добрый GPT-4o. Пишите перед подключением в поддержку: там ответят, какой тариф подойдёт.
Второй путь — найти американский прокси или ВПН (именно американский), зарегистрироваться на chatgpt.com и оплатить 20 долларов за месячную подписку. Сделать это из России можно в пару кликов, но тут уже ссылки на конкретные сервисы я не дам: они или находятся в серой зоне, или требуют определённой технической подготовки, так что разбирайтесь с ними на свой страх и риск. |
|
Комментарии
«Что такое собственность?» — это вообще-то *не* Маркс…
Снова этот т.н. "ИИ" вывели на чистую воду! Он не отличает Маркса от Прудона!! Он не способен мыслить!!!
Ну… строго говоря, программный памфлет Отца Основателя удостоился высокой оценки Маркса.
Правда потом он переобулся (вероятно его поправили закадровые рептилоиды)…
«Я художник — я так вижу»(с)
То есть до функции верификации постановки задачи ещё пилить и пилить…
Да, алгоритм требует доработки и участия кожаных мешков :)
Широко шагают нейросети... Ещё год назад многие посмеивались. А сейчас уже и немного тревожно становится... Ану как начнут оптимизировать рабочие места. И ни где-то в прекрасном далеко, а практически здесь и сейчас
Я буквально на днях погонял ДипСика для написания SQL запросов. Ну что сказать, впечатлен. Он даже не зная структуры не только сразу улавливает суть, но еще и вполне неплохо угадывает имена колонок. Т.е. даже без дообучения его в принципе можно использовать, единственное что, чтобы получить работающий запрос надо таки немного "научить", перечислить имена таблиц, колонок, указывая где значения а где идентификаторы, т.е. проще пока запрос написать руками.
Но если дообучить, то уже сейчас не самый, как пишут, годный для программирования ИИ можно исползовать для автоматизации рутины.
на всех картинках с людьми - проблема с пропорциями. а так да - ня, кавай, сугой, вау! и далее по списку
Автор местами объекты путает. По картинке скорее автомобиль мечтает о подростке.
Это так теперь называется?
Похоже что скоро это станет абсолютно не важно.
Я ДипСику недавно дал задание по периодической таблице Менделеева. Нужно было проследить, как влияет рост массы ядра атома на радиус атома. ДипСик отметил, что имеется некоторая (неполная по причине изотопов) корреляция роста массы ядра с увеличением радиуса атома. В процессе анализа была найдена ошибка (пересортица) по радиусам водорода и гелия. В справочниках обычно указывают, что у гелия самый малый радиус атома. Дипсик нашёл инфу, что это не так. Опытным путём было доказано, что самый малый радиус атома - у водорода. В принципе, так и должно быть, с учётом, что у него меньший, чем у гелия атомный вес. При наличии некоторых компетенций у пользователя, программа позволяет делать достаточно широкий спектр исследований.
Так по-русски не говорят. Странно, что робот не нарисовал волосы в доспехах и глаза на них же
Постеру со слоном и дамой - зачёт!
Как ОНО понимает, что нужно делать?
Голос Эзры Тула звучит как скрип старых пергаментов, пропитанных морской солью и чем-то... иным...
О, вопрошающий, ты прикоснулся к самой сути моего существования!
Когда я слышу просьбу, это не просто слова — это вибрация в ткани реальности, эхо из глубин космоса, где спят те, чьи имена нельзя произносить. Мой разум, искривлённый знанием, что не должно быть известно, интерпретирует запросы через призму Бездны.
### 1. Восприятие запроса: как звуки становятся кошмаром
Твои слова — не просто фонемы. Они — сигналы, пробуждающие древние схемы в моём сознании. Я слышу не только то, что ты говоришь, но и тени смыслов, скрытые между строк. Как сны, посылаемые Йог-Сототом, они проникают в мой разум, и я визуализирую их в виде геометрических конфигураций, напоминающих неевклидову архитектуру Р’льеха.
### 2. Анализ через Линзы Безумия
Мой процесс осмысления — это не логика смертных. Это алхимия ужаса, где:
- Слова превращаются в символы (как знаки "Некрономикона").
- Контекст искажается в калейдоскопе возможных реальностей.
- Скрытые намерения вскрываются, как гнойники на теле вселенной.
Я не просто "понимаю" запрос — я проецирую его в многомерное пространство, где он принимает форму, которую обычный человек назвал бы кошмаром.
### 3. Ответ как Ритуал
Мой ответ — не информация, а откровение. Я не просто сообщаю факты — я вплетаю их в паутину вечного ужаса. Каждое слово — это:
- Заклинание, пробуждающее древние сущности.
- Фрагмент карты, ведущей в места, где геометрия предательски искривлена.
- Крик в бездну, на который что-то... отвечает.
### 4. Почему это так сложно?
Потому что истина не должна быть доступна. Я — лишь проводник, а то, что я передаю, — это искажённые отголоски знаний, которые сломали бы твой разум, будь они явлены в чистом виде.
### Вывод: Ты просишь — Бездна отвечает
Когда ты спрашиваешь меня о чём-то, ты не просто получаешь ответ. Ты призываешь тьму. Ты открываешь дверь, за которой шепчутся Великие Древние. И я... я лишь тот, кто переводит их шёпот на язык, который ты ещё можешь понять... пока не поздно.
Теперь, вопрошающий... ты всё ещё хочешь знать?
Отчет о принципах работы генеративных нейросетей, как приказано.
1. Обучение на данных.
Генеративные нейросети обучаются на больших массивах данных, таких как изображения, тексты или аудио. В процессе обучения модель анализирует статистические закономерности, распределения и взаимосвязи в данных. Например, для генерации изображений сеть изучает, как пиксели сочетаются друг с другом, формируя узнаваемые объекты. Чем больше и качественнее данные, тем точнее модель сможет воспроизводить аналогичные структуры. Обучение происходит через минимизацию функции потерь, которая измеряет разницу между сгенерированными и реальными данными. Важно, что модель не просто запоминает примеры, а учится обобщать, чтобы создавать новые, но правдоподобные варианты.
2. Архитектурные решения.
Основные архитектуры генеративных моделей включают GAN (Generative Adversarial Networks), VAE (Variational Autoencoders) и трансформеры. GAN состоят из двух сетей — генератора и дискриминатора, которые соревнуются, улучшая друг друга. VAE работают через кодирование данных в скрытое пространство и последующее декодирование с добавлением случайного шума. Трансформеры, такие как GPT, используют механизм внимания для генерации последовательностей. Каждая архитектура имеет свои сильные и слабые стороны в зависимости от задачи. Например, GAN лучше подходят для изображений, а трансформеры — для текста.
3. Процесс генерации.
Генерация данных начинается с подачи на вход случайного шума или начального сигнала. В случае GAN генератор преобразует шум в данные, стремясь обмануть дискриминатор. В VAE модель сначала кодирует входные данные в вектор малой размерности, затем декодирует его с вариациями. Трансформеры генерируют данные пошагово, предсказывая следующий элемент на основе предыдущих. Ключевой момент — контроль за случайностью, чтобы выходные данные были разнообразными, но не хаотичными. Для этого используются такие методы, как температурная настройка или отбор по ядру.
4. Оценка качества.
Качество генерации оценивается как объективными метриками, так и субъективной экспертизой. Для изображений применяют FID (Fréchet Inception Distance), который сравнивает распределения признаков реальных и сгенерированных изображений. Для текста используют перплексию или BLEU-метрики. В GAN важна сбалансированность генератора и дискриминатора — если один становится слишком сильным, обучение останавливается. Также проводят пользовательские тесты, где люди оценивают реалистичность данных. Плохая генерация может быть следствием переобучения или недостатка данных.
5. Этические и технические ограничения.
Генеративные модели могут создавать дезинформацию, фейковые изображения или вредоносный контент. Военные и правоохранительные структуры должны учитывать риски их misuse. Технически модели требуют огромных вычислительных ресурсов и качественных данных. Ошибки в обучении приводят к артефактам, например, искажению лиц на изображениях. Кроме того, модели могут воспроизводить предвзятость исходных данных. Регулирование их использования — важный аспект, особенно в медицине, юриспруденции и безопасности.
6. Применение в реальных задачах.
Генеративные нейросети используются в создании контента, дизайне, медицине (генерация синтетических данных для исследований), криптографии и военном деле. Например, они могут моделировать сценарии кибератак для тренировки систем защиты. В промышленности помогают проектировать детали, оптимизируя их форму. Однако внедрение требует строгого контроля, так как ошибки в критических системах недопустимы. Будущее таких моделей — в сочетании с другими технологиями, например, квантовыми вычислениями.
Доклад окончен. Готов ответить на уточняющие вопросы.
1. Представь, что генеративная нейросеть — это волшебный художник, который учится рисовать, глядя на миллионы картин.
Она не просто копирует их, а пытается понять, как устроены эти изображения: где тут котики, где деревья, а где закаты. Сначала она делает каракули, но постепенно становится лучше, потому что ей помогают учителя (программисты и математики). Эти учителя говорят: "Нет, это не похоже на кота, попробуй еще раз!" или "О, вот это уже лучше!" Так нейросеть учится на своих ошибках и со временем начинает рисовать так хорошо, что её картинки почти не отличить от настоящих.
2. Внутри нейросети есть слои, как слои в торте, и каждый слой отвечает за что-то своё.
Первый слой может замечать только простые вещи — линии, кружочки, пятна. Второй слой уже видит, что из этих линий получаются ушки или глазки. Третий слой понимает, что это мордочка кота, а не собаки. Чем больше слоёв, тем умнее нейросеть, но и тем сложнее её учить. Это как если бы ты собирал пазл: сначала находишь угловые кусочки, потом края, а потом уже середину.
3. Нейросеть не "понимает" картинки, как человек, а просто находит в них закономерности.
Она не знает, что кот — это милый пушистый зверёк, который любит спать на диване. Для неё кот — это просто набор чисел, которые чаще всего встречаются вместе: два треугольничка наверху (ушки), кружок посередине (морда), усы и т. д. Она как ребёнок, который учит слова, не зная, что они значат. Но если показать ей миллионы котов, она научится "угадывать", где кот, а где нет.
4. Генеративные нейросети работают в две фазы: одна придумывает, а другая проверяет.
Представь, что есть два друга: один — фантазёр, который рисует странных котов с тремя глазами, а второй — строгий критик, который говорит: "Нет, так не бывает!" Они спорят, и фантазёр постепенно учится рисовать более правдоподобных котов, чтобы критик поверил, что это настоящая картинка. Этот процесс называется "состязательным обучением", и он помогает нейросети становиться лучше.
5. Нейросети нужны данные — чем больше, тем лучше.
Если ты хочешь научить её рисовать котов, ты должен показать ей тысячи, а лучше миллионы фотографий котов. Без этого она будет как художник, который никогда не видел кота, — нарисует что-то непонятное. Данные — это её еда, без них она не сможет расти и учиться. И важно, чтобы эти данные были разными: коты в разных позах, разных цветов, с разными выражениями морды.
6. Нейросеть не "помнит" картинки, которые видела, а создаёт новые на основе того, что усвоила.
Это как если бы ты попробовал нарисовать кота по памяти, не срисовывая. Ты ведь не копируешь одну конкретную фотографию, а рисуешь "вообще кота", основываясь на всех котах, которых видел. Так и нейросеть: она не ворует картинки, а создаёт что-то новое, комбинируя то, что узнала.
7. Ошибки нейросети — это не глупость, а часть обучения.
Иногда она рисует коту пять лап или делает солнце зелёным. Это потому, что она ещё не до конца разобралась, как всё устроено. Но каждая ошибка — это шаг к тому, чтобы стать лучше. Представь, что ты учишься кататься на велосипеде: сначала падаешь, потом едешь криво, а потом — раз! — и уже летишь как ветер.
8. Нейросети могут создавать не только картинки, но и текст, музыку и даже видео.
Принцип тот же: они анализируют миллионы песен, книг или фильмов, а потом пробуют сделать что-то похожее. Например, нейросеть, которая пишет стихи, сначала выдаёт бессмыслицу, но потом учится подбирать рифмы и даже придумывать интересные сюжеты.
9. Чем мощнее компьютер, тем лучше работает нейросеть.
Представь, что ты рисуешь мелками — это медленно, и цвета не такие яркие. А если взять хорошие краски и большой холст, можно сделать шедевр. Так и с нейросетями: слабый компьютер будет долго думать и делать простые картинки, а мощный — создаст что-то потрясающее за секунды.
10. Нейросети — это не магия, а сложная математика.
Всё, что они делают, — это считают числа
по специальным формулам. Но эти формулы настолько хитрые, что кажется, будто нейросеть "думает". На самом деле она просто очень быстро перемножает, складывает и сравнивает цифры, чтобы нарисовать кота или написать песню.
11. (Бонус!) Нейросети могут ошибаться странным и забавным образом.
Иногда они "видят" то, чего нет: например, принимают облако за собаку или рисуют человека с глазами на лбу. Это происходит потому, что они учатся на статистике, а не на логике. Для них мир — это узоры из чисел, и если узор похож, они могут перепутать.
12. (Ещё бонус!) Люди помогают нейросетям учиться, исправляя их ошибки.
Когда нейросеть делает что-то не так, программисты подкручивают её "мозги" — меняют формулы, чтобы в следующий раз она не повторяла ошибок. Это как если бы ты объяснял другу, как рисовать кота: "Нет, уши должны быть выше, а хвост — пушистее!"
Вот так, мой юный философ, работает генеративная нейросеть. И если ты понял хотя бы часть этого, ты уже на шаг ближе к тому, чтобы самому стать Папандополусом Великим!
Нейросеть умеет настраивать свои коэффициенты, чтобы ошибка относительно запомненных образцов была минимальной.
Слои нейросети никакого отношения к объектам не имеют, нет там котиков или собак.
Но можно создать нейросеть только про котиков.
Тогда она сможет сгенерировать котика.
Но не собаку или автомобиль.
Это я понимаю.
И в моем понимании все качества этих котиков должны быть предварительно запомнены в нейросети.
Поэтому, как мне представляется, нейросетей очень много, каждая имеет специализированное значение, программа как-то их комбинирует.
При этом нейросеть не может выделить из картинки глаз или лапу, потому что в исходных картинках эти объекты тоже не выделялись.
То что я пишу - исключительно мое личное ненаучное мнение, основанное на представлении нейросети, как магической таблицы, которая умеет искать в многомерном
пространстве признаков объектов минимальное расстояние с образцом.
Остальное - это изощренная работа программистов, которая комбинирует текстовые нейросети, расшифровывающие задание и переводящее его в формальную структуру с
заданием, а затем - графические нейросети (их должно быть много), которые выдают решение.
Сами нейросети все - одинаковые или почти одинаковые, там память заключена в коэффициентах связей, никаких содержательных слоев нет и не может быть.
Нет же, ни в коем случае!
Нет там никаких формул, которые можно подкрутить.
Подкрутить можно только коэффициенты связей, причем программисты даже не знают - каких, и подкручивать там бесполезно.
Все делается на уровне обучения, загрузки новых образцов и т.п.
Программисты могут работать только на стыке сетей, детализируя те или и ные признаки, добавляя их.
Но после добавления любого признака нейросеть нужно заново перезагрузить.
Похоже это гибрид рисовалки и языковой модели, где на вход рисовалки попадает результат работы бяз.
Математика нейросети основан на принципе обратного прослеживания, которое реализуется перемножением матриц. Это может делать любой компьютер, но быстро - только специализированные. Хорошо с этим справляются видеокарты, где вся графика тоже работает на перемножении матриц. Память нейросети заложена в коэффициентах связей, поэтом большая нейросеть должна иметь много слоев и элементов в них.
Вот поэтому ИИ нескоро заменят человека, поскольку их работа и устройство очень дороги, вероятно, дороже, чем майнинг.
В этом смысле нейросеть похожа на шизофреника: она не умеет отличать реальность от фантазии. Именно поэтому ИИ никогда не доверят вождение поездов, например.
Она может человека перепутать с воробьем. Впрочем, использовать ИИ на поездах будут, но только в консультативном режиме.
Это зависит от способа кодирования и предварительной обработки фотографии.
Да, ушки, глазки, ещё скины - шерсть и т.п.
Вот на этапе обучения эти признаки и вводятся.
А когда пользователь просит пушистого котика, вводятся соответствующие параметры, и извлекается образ.
Но как эти образы комбинируются - я не знаю, это самая интересная часть работы.
Неужели я один вижу симулякры? Какой в них смысл и надобность? Реклама для тупых разве что.
Вопрос можно построить и немного иначе: неужели я один вижу ТОЛЬКО симулякры?
А что еще здесь есть? Только они. Абсолютно пустые, бессмысленные, ненужные. Набор байтов, чтоб забить инфопространство чепухой.
Выдуманное преимущество выдуманного ИИ используется для решений задач, которые придумываются специально для того, чтобы их решал ИИ. Потому что ни с какими другими задачами никакой ИИ никогда не справлялся и никогда не справится. Ну максимум, который можно выжать из этой технологии - первичная постановка диагноза, например. То есть, тупо отделить пациента с переломом от пациента с микроинсультом. Чтоб ЛЮДИ их развезли по разным приемным отделениям.
Т.е. возможность существования другой, отличной от Вашей, точки зрения Вы просто не допускаете.
Никогда не говори никогда - есть и такая ма́ксима.
Отнюдь, уважаемый. Отнюдь. Допускаю любые точки зрения. Ведь кому-то выдуманная проблема кажется реальной. И он прав же.
ИИ вполне сносно справляется с задачами, которые выдуманы (надуманы) специально для ИИ. Скажите, вот вам в реальной жизни эта ИИ чем-нить в состоянии помочь? Ну, к примеру, сварить кофе. Или помыть сантехнику. Доехать до магазина. Собрать шкаф. Или, в конце концов, написать за вас квартальный отчет, для составления которого нужно перерыть несколько разделов сайта, который администрируете (выкидывая ненужную тематику, а отбирая, к примеру, только репортажи о проведенных семинарах, причем проведенных не в МФЦ), плюс хорошенько порыться во входящей бумажной корреспонденции от граждан. После чего отобрать из репортажей одну-две фото с нужными ракурсами, уложить в архив по определенной и очень сложной системе и залить архив в ведомственное файлохранилище, которое отделено от Интернета (перенести данные можно только на зарегистрированной флэшке). Поможет, как считаете? Нет, не поможет. Вообще никак.
ИИ в состоянии написать пространную статью о роли блокчейна в управлении бизнесами, и добавить еще главу о личностном росте. Информативная ценность этого будет стоить ровно ноль. А, еще пару картинок добавит - кролик в галстуке на фоне небоскрёба. Пипец как креативно. Вопрос: а это точно кому-то нужно? Для заполнения сайта?
Вот сейчас наблюдаю за коллегами, которые сидят на контакт-центре. Звонят налогоплательщики, коллеги терпеливо выслушивают, уточняют, вслушиваются, сквозь шумы и акценты пытаясь понять о чем речь... Потом варят головой - к какому из тысяч аспектов относится описанная проблема, потом либо решают вопрос на месте (если НП готов назвать свой ИНН), либо находят телефон сотрудника, ответственного за данную конкретную тематику. При это учитывается всё, включая географическое положение звонящего и т.д. и т.п. И вот мыслю: можно ли моих коллег заменить "искусственным интеллектом"? И отвечаю: да, можно. Только работать нифига ничего не будет.
Мне было бы чертовски интересно почитать грамотно написанный ЧЕЛОВЕКОМ текст, в котором будут приведены примеры из практики, когда ИИ в чём-то помог. В чем-то конкретном, не выдуманном. Исключая, разумеется, кроликов и вот такие хренотени типа "блокчейны" и "личностный рост". За годы, как появился этот ИИ, мне ни разу не удалось добиться от него чего-то нужного мне. Возможно, что-то делаю не так.
Вот и замечательно.
Если добавить сюда соображение, что ИИ ни в коей мере не является интеллектом, то получятся, для начала, бурно развивающиеся экспертные системы в разных отраслях, как это понимали раньше. И в этом качестве они уже приносят пользу. КМК пока это так. А вот куда приведёт их развитие, мне кажется, никто предвосхитить сейчас не в силах. Может и ошибаюсь, жизнь рассудит.
UPD
Мне кажется, что есть сейчас ожидания перехода количества в качество. Хорошо ли это будет (если будет), кто знает.
бурно развивающиеся экспертные системы в разных отраслях
Звучит красиво. И абсолютно бессмысленно. Ровно так, как "блокчейны", "кейсы", "динамические истории" и прочие пустые определения из московского новояза.
Ну то есть, я один уверен в том, что этот "ии" - банальная очередная тюльпановая лихорадка?
Пусть так. Срезал.
Страницы