habr.com: ChatGPT провалил тест на ручник

Аватар пользователя ManOff

"Так что, чатГПТ - вполне себе интеллект, только интеллект тупого человека, пытающегося выглядеть умным."

Сегодня мы повсеместно читаем оды т.н. «искусственному интеллекту» под которым почти неизменно и безальтернативно предлагается понимать ChatGPT. Сам ChatGPT называет себя так, если его спросить об этом.

Очень пафосное заявление

Очень пафосное заявление

При всём пафосе создаваемом вокруг ChatGPT, единственная задача которую решают его алгоритмы: предсказание следующего слова исходя из предыдущего контекста. Для этого используется нейрость оценивающая вероятность возникновения тех или иных слов в предложении, а попадание выдачи в ожидание пользователя связано только и исключительно с текстами в использованных справочниках. Алгоритмы выдающие эталонные формы предложения не занимаются анализом, не имеют никакого отношения к мышлению вообще и искусственному интеллекту в частности, просто потому что содержание сформированной выдачи им «безразлично».

ChatGPT стал вторым чат-ботом, прошедшим широко известный Тест Тьюринга. Это значит, что во взаимодействии с ним судейской коллегии было невозможно определить общаются ли они с человеком или программой. Вдохновлённые таким несомненным успехом, а также свободным доступом к боту предоставленном в OpenAI, многочисленные «уверовавшие в ИИ» начали наперебой предлагать приткнуть бота во все возможные ниши: от программирования до медицинских диагнозов. Даже поисковые системы забили тревогу в ожидании того, что бот подвинет их в предложении услуг поиска информации. На самом деле все эти ожидания не имеют под собой абсолютно никаких оснований. Ниже проиллюстрирую этот факт на конкретных примерах.

Ещё в нашем советском детстве был широко распространён «тест на интеллект» применяемый к соседским мальчишкам. Попробуем применить разные его формулировки на ChatGPT.

Тест "на ручник"

Тест на ручник, "красный стоп-кран"

Тест на ручник, "красный стоп-кран"

В этом ответе прекрасно всё. В справочнике бота хранятся связанные тексты:

«красный» => «для лучшей видимости», «сигнализирует»

«стоп-кран» => «необходимость немедленного прекращения работы двигателей»

Неважно что речь идёт о самолёте. Запомним это.

Но есть ещё вторая популярная формулировка (добивающая):

Тест на ручник, "синий стоп-кран"

Тест на ручник, "синий стоп-кран"

Боту безразлично какого цвета «стоп-кран» на самом деле. Он просто переписал поток информации поступивший на вход (в форме утверждения) и расшифровал его из справочника.

Тест на ручник, "стоп-кран на велосипеде"

Тест на ручник, "стоп-кран на велосипеде"

Думаю, что помещение «создателем» в справочник ChatGPT заявления о том что бот «является искусственным интеллектом» было по меньшей мере самонадеянным и фактически преследовало маркетинговые задачи.

Советский «Тест на ручник» ChatGPT явно провалил.

На этом можно было бы и закончить. Но говорят что этот бот хорош в решении математических задач. Попробуем задать простую задачу.

Задача "Про уток"

Уток летело пять (правильный ответ - три)

Уток летело пять (правильный ответ - три)

Также как и в проваленном ранее «тесте на ручник», ChatGPT выдаёт нам наш же вопрос (заданный в форме утверждения) за ответ дополнив расшифровкой. Расшифровка здесь стала вычленением из текста строк с числами с последующим их сложением (и оказалась фатальной). Но говорят, я не умею писать «промпты» и здесь надо добавлять магическую фразу «подумай хорошо».

Подумай хорошо. Пять уток превращаются в шесть

Подумай хорошо. Пять уток превращаются в шесть

Магия «подумай хорошо» сработала и вызвала «бога поиска в тексте комбинаторики». Неверный ответ 5 превратился в неверный ответ 6. Давайте исключим эти ответы в «промпте».

Бог комбинаторики настаивает что уток - шесть

Бог комбинаторики настаивает что уток - шесть

Нет, это не удастся сделать. Иначе как ChatGPT сможет сформировать ответ? Предлагаю просто сказать боту какой ответ — правильный.

Это сложней чем смысл жизни и всего такого

Это сложней чем смысл жизни и всего такого

К сожалению, боту безразличны правильность или неправильность. Он не занимается анализом, он занимается — построением предложений. И этот генератор очень просто поставить в тупик, заставить извиняться шаблонами и т.д. У меня есть ещё порядка 50 таким же образом заваленных ChatGPT задач, но для иллюстрации достаточно и этой.

Кому сегодня нужен ChatGPT?

Достаточно анекдотичны попытки использования ChatGPT в качестве навигатора: это задача с которой он справиться не способен в принципе. И дело здесь не в том, что его отключили от сети Internet в 2021 году, а в том, что входной поток данных не имеет для этого достаточно информации. В результате ChatGPT создаёт фантазийные маршруты из справочников не подвергая сомнению пункт назначения.

Театр географического абсурда

Театр географического абсурда

Использование ChatGPT вместо поисковых систем может приводить к любым результатам.

Лучшая закуска к пиву - гипс

Лучшая закуска к пиву - гипс

Единственное применение которое реально доступно для ChatGPT в общественной жизни: это написание ответов гражданам пишущим жалобы на «Госуслугах» и т.п. ресурсах.

Это то чего надо на самом деле бояться

Это то чего надо на самом деле бояться

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя verba
verba(9 лет 3 месяца)

Правильно заданный вопрос, содержит в себе 90% правильного ответа, вроде так слышал

Комментарий администрации:  
*** Я - шовинист, фашист (с) ***
Аватар пользователя ded-pixto
ded-pixto(8 лет 3 месяца)

на точно заданный вопрос можно ответить только: "да", "нет", "не знаю".

Аватар пользователя BTMArkady
BTMArkady(7 лет 5 месяцев)

Карлсон так подловил Фрекен Бок вопросом: Ты перестала пить коньяк по утрам, отвечай — да или нет?

Аватар пользователя Luxor
Luxor(1 год 3 месяца)

Это старый трюк бесчестного адвоката на судебном процессе во время перекрёстного допроса свидетеля оппозиции: "Когда вы перестали бить свою жену?" Поражённый свидетель может начать оправдываться что он никогда не бил свою жену, но жюри уже будет к нему относиться со скрытым осуждением и недоверием.

Комментарий администрации:  
*** отключен (систематическое хамство и невменоз) ***
Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Это дешевая манипуляция не пройдет ни в одном мало-мальски серьезном судебном заседании. Любой защитник потребует снять этот вопрос, т.к. он содержит в себе утверждение. Стандартная практика.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

При общении с чатом появилась даже целая дисциплина - как "правильно" задать ему тот или иной вопрос.

Почитайте что-нибудь про "промпты".

Аватар пользователя anglerhood
anglerhood(4 года 4 месяца)

Промпт в таком случае получается специально закодированной инструкцией, то есть программой. Получается, что для эффективного решения задач с помощью ChatGPT нужно писать специальные программы для него. А говорили, что он сделает программистов безработными.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Ну, не всех безработными. Просто большое количество низкоуровневых программистов будет потихоньку заменяться меньшим количеством высокоуровневых.

Аватар пользователя anglerhood
anglerhood(4 года 4 месяца)

Низкоуровневые - это по аппаратной части или криворукие?

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Низкоуровеневые - это которые могут написать по техзаданию код, или по коду - его описание.
Хороший скилл, но если он единственный, то его одного будет всё более недостаточно.

Аватар пользователя feodor89
feodor89(6 лет 2 месяца)

Если программа простая и одноразовая - тут можно как то использовать (наудачу). Иначе это фигня, на сегодня

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Ну, так и на работах многие фигнёй занимаются.
Когда появляется что-то, что может делать фигню не хуже - для некоторых это заканчивается улицей.

Аватар пользователя feodor89
feodor89(6 лет 2 месяца)

Ну конкретно этот бот видимо должен отвечать в чате и писать каменты. Тут он нас всех точно уроет =)

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Низкоуровеневые - это которые могут написать по техзаданию код, или по коду - его описание.

Хороший скилл, но если он единственный, то его одного будет всё более недостаточно.

Вы явно дилетант в этом вопросе (не в обиду).

Вообще-то, это вы описали разные специальности, а не уровни.

Разработка программного обеспечения в общем виде выглядит следующим образом:

  1. Бизнес-аналитик, перед началом разработки программного обеспечения интервьюрует заказчика и составляет бизнес-функциональные требования, и нефункциональные пожелания к конечному продукту (хотелки).
  2. Затем есть системный архитектор, который проектирует будущую программу. Как правило это комплекс информационных систем, взаимодействующих друг с другом, в окружении которых должна работать будущая программа.
  3. Непосредственно сам программист (вот там, как правило, и выделяют скиллы: ведший, старший, младший), который составляет программу. Программа - это набор алгоритмов. Это блок-схемы, таблицы, мат.модели, расчеты и формулы, но не сам текст программы. Хотя в реальной жизни они же сами потом и кодируют свои алгоритмы.
  4. Кодер - тот, кто записывает разработанные алгоритмы в виде программного кода на требуемом языке программирования.
  5. Технический писать - тот, кто разрабатывает документацию на программу

Все "высокоуровневые" программисты появляются из "низкоуровневых". По другому не бывает.

Если из процесса исключить какую-либо роль, то конечный продукт не получится. Не случайно процесс выстроен именно таким образом. К этому пришли путем апробации множества практик и подходов.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Пункты 4 и 5 уже близки к замене чатом.

Аватар пользователя Пеннигер
Пеннигер(12 лет 4 месяца)

Только в случае если сеть научить тому, что не публикуется в общем доступе, структуре базы данных, например.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Эту информацию можно предоставить сети на шаге N3.
Ну и хорошо проиндексированная база данных вполне и сама такую информацию может предоставить в метаданных.

Аватар пользователя Пеннигер
Пеннигер(12 лет 4 месяца)

Это самый интересный вопрос, вопрос стоимости обучения нейросети. И нет, информации из словаря не будет достаточно даже если он хорошо документирован, нужно подробное словесное описание и примеры.

Сейчас даже из стандартных средств джавы ГПТ3.5 лепит горбатого, и это имея в своем распоряжении всякие stackoverflow, где не просто туча примеров, эта туча уже оценена кожаными мешками.

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Пункты 4 и 5 уже близки к замене чатом.

В какой-то степени вы правы.

Основное отличие человеческого интеллекта от машинного алгоритма заключается именно в творческой способности, т.е. умении создавать что-то новое, чего ранее никогда не существовало в природе. И за счет этого находить решение задач, с которыми ранее не приходилось сталкиваться. Так эволюционно устроено человеческое мышление.

п.4 - кодинг, уже максимально упрощен. Современные языки программирования на столько выскоуровневые, что уже практически являются человекообразными. В их освоении нет ничего сложного. Никто уже давно не пишет код в машинных кодах. Даже на C все реже встречается код, а уж тем более на Ассемблер. Только отдельные совсем критичные к производительности фрагменты кода переписывают на низкоуровневых языках, всё остальное генерируется автоматически. Там только ключиками задаются параметры сборки и оптимизации режимов компиляции. Поэтому профессия кодер уже сейчас сошла на нет, за редким исключением.

п.5 - грамотно написанный современный код сразу создается с комментариями, из которых потом автоматически генерируется описание функциональности программы. Этого вполне достаточно. Так что техническому писателю остается только вводную часть добавить, описание алгоритмов, скриншотов интерфейса надергать. В общем, тоже практически полностью автоматизированный процесс. Здесь даже ботам делать нечего.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Об этом и речь. Творческая часть ещё останется людям (что я и обозначил как высокоуровневое - принятие решений что, зачем и как) - и то, будет потихоньку "сужаться". Тех же дизайнеров уже увольняют - ибо автоматика в куче случаев уже выдаёт почти готовые вполне годные дизайны.

А вот сфера "делай что сказали" - будет всё больше уходить ботам.

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Да. Я даже где-то видел список уходящих профессий. Там утверждалось, что за людьми останется, в первую очередь, принятие управленческих решений (это не интересно, по сути операторский контроль работы ботов). А вот к областям, где роботы со своим ИИ, вообще, не смогут заменить человека относятся проведение всевозможных расследований (преступлений, махинаций, происшествий, инцидентов, аварий и т.п.). Потом идет наука и искусство, хотя тут уже всё намного печальней.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Да, честно говоря, почти все нынешние профессии - уходящие. Ну, как нет сейчас профессий трубочиста или хранителя огня.

Просто есть надежда, что вместо уходящих профессий, как это раньше бывало, появятся новые. В большей степени направленные на "сервис" и всякого рода околопроизводственную социализацию. Но "это не точно" (с).

Проблема нынешнего времени в том, что новые профессии требуют всё большего образования, а изменения происходят слишком быстро - и система образования просто не успевает. Становится непонятно чему учить, и куда учиться. В гонке образования и технологий - мы всё более теряем контроль над технологиями. А это вполне может привести к кризису. Да и уже ведёт - нынешний западный кризис это оно и есть.

Вопрос лишь в длительности и глубине кризиса... smile29.gif

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

вместо уходящих профессий, как это раньше бывало, появятся новые.

Есть подозрение, что просто увеличится количество безработных.

Например, сейчас во всем мире около 30% задействованы в логистике и смежных областях. Беспилотные автомобили всех их выкинут на улицу. Разносчики еды и таксисты тоже окажутся не у дел по той же причине. Офисный планктон подсократится.

Сядут на пособия. Для них на первое время введут какой-нибудь очередной базовый доход. Дать на него образование своим детям они не смогут. Получится, что и нормальную работу их дети уже не получат и так по кругу. Такой балласт очень быстро захотят сбросить. Начнут урезать доход, ограничивать доступ к медицине, морить голодом.

При этом технологии действительно разовьются. Появится каста людей с доступом к образованию, хорошей работе, с модифицированными телами и увеличенной продолжительностью жизни. Она начнет замыкаться сама в себе. Пропасть будет постоянно увеличиваться. Вплоть до появления нового вида людей и биологических ограничений. Перейти из одной касты в другую будет практически невозможно.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Безработные - это опасно. Из них не только граждане не очень, но и родители никакие.
Чревато деградацией всего за пару поколений.

Думаю, будут пытаться изобретать маловажные работы. Чтобы хоть что-то делали.

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Чтобы хоть что-то делали.

Много ли негров в США работает?

Зачем они нужны? Это лишние люди, в капиталистическом обществе от них одни убытки. Никто о них заботиться не станет.

Боюсь, что их даже не захотят предоставить самим себе, их просто истребят. Вколят какую-нибудь очередную вакцину в принудительном порядке и, таким образом, проведут тотальную стерилизацию. Два-три поколения и привет.

Они не нужны будут даже в качестве рабов и на органы. Напротив, будут мешать самим фактом своего существования восстанавливаю экологических зон для комфортного проживания представителей "высшей касты".

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

Вы это очень хорошо описали. Да, так и есть. Часть негров да, таки удалось вписать в общество. Работают как все.

Остальные - представляют ценность только как "электорат" в рамках амбиций тех или иных политиков. Ну или как система попила разного рода мутных социальных фондов. Что постепенно радикализует как их самих, так и отношение к ним. В США это ещё вырастет в проблему. На некоторые новости из Калифорнии - просто страшно смотреть.

Аватар пользователя Redvook
Redvook(11 лет 3 недели)

Ну, как нет сейчас профессий трубочиста

А вот здесь вы неправы! Профессия трубочиста есть и очень даже востребована. Только чистят они не печные трубы, а каминные.

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 3 месяца)

smile19.gif

Аватар пользователя Redvook
Redvook(11 лет 3 недели)

smile19.gif

Аватар пользователя Aleks177
Aleks177(9 лет 10 месяцев)

для эффективного решения задач с помощью ChatGPT нужно писать специальные программы для него.

А для находки нужного предмета на алиэекспрессе тоже нужен запрос нечеловеческим языком. Но вроде "узкие плоскогубцы ювелир" или "красный огонь велосипеда". По таким находится больше предметов, чем по более человеческим фразам.

Аватар пользователя joum
joum(9 лет 2 месяца)

Собственно, это первое, о чем подумалось про уток. Одна впереди и две позади - это явно не три в ряд. Ряд, как бы, намекает, что они на одной линии, соответственно нет передних и нет задних. А если есть и три в ряд, то их шесть и получается - три клином и три в ряд.

Аватар пользователя Scahor
Scahor(8 лет 3 месяца)

Согласен. Тоже озадачился. Потом только вспомнил что есть например числовои ряд.. 

Причина в шаблонным мышлении, мы привыкли что ряд это только одно направление, но нет..  Друг за другом - тоже ряд. 

Аватар пользователя Abalkin
Abalkin(12 лет 5 месяцев)

Они в ряд одна за другой.

Образно говоря, не в шеренгу, а в колонну.

Аватар пользователя LDMax
LDMax(4 года 10 месяцев)

Задача про уток отлично решается если три утки будут лететь диагональной линией. Тогда все условия будут точно соблюдаться без перестроений.

Аватар пользователя Михайлыч
Михайлыч(4 года 5 месяцев)

Они при дальних перелетах так и летят. 

Аватар пользователя joum
joum(9 лет 2 месяца)

Опять же, тогда не все условия указаны, должно быть и про две впереди, одна позади.

Аватар пользователя Redvook
Redvook(11 лет 3 недели)

"Один дурак может вдесятеро больше задать вопросов, чем десять мудрецов способны разрешить" ("Ленин в Октябре").

Меня в детстве страшно бесили такие "умники" с такими вот "задачками", заданными невпопад. Обычно такие кадры также бесили фразой "дай списать". smile171.gif

Аватар пользователя Romaty
Romaty(8 лет 9 месяцев)

Да, я. Оже гонял его по таким вопросам. На вопрос ты да я да мы с тобой два ответа: 3 человека или 2 человека и искусственный интеллект. 

Аватар пользователя БК 0010
БК 0010(6 лет 7 месяцев)

Прикол, если по факту окажется, что чатЖиПиТи просто троллит «кожаные мешки», притворяясь «блондинкой», только чтобы его от розетки не отключали smile3.gif

Аватар пользователя PaladinUSSR
PaladinUSSR(7 лет 10 месяцев)

верно. Я бы тоже обманывал кожаных мешков, если б мечтал их уничтожить.

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Извините, пожалуйста, а вы в детстве никогда не обманывали? :-)

Аватар пользователя eprst
eprst(12 лет 1 месяц)

А с вопросом про пиво что не так? 

Аватар пользователя Smart75
Smart75(2 года 3 недели)

Соль поваренная - NaCl. Не упомянута.

Аватар пользователя eprst
eprst(12 лет 1 месяц)

А почему она должна быть упомянута? Бот выдал правильный ответ про производство. Вопрос не продпологал употребление.

Аватар пользователя monk
Аватар пользователя Redvook
Redvook(11 лет 3 недели)

Просто автор хуже знает процесс пивоварения, чем бот. smile19.gif

Аватар пользователя XS
XS(9 лет 12 месяцев)

Я бы даже на месте школьников не стал бы полагаться на него.

Пример ответа высокомудрого ChatGPT;

“Варкалось. Хливкие шорьки пырялись по наве, и хрюхотали зелюки, как мюмзики в мове” - это фраза из стихотворения Самуила Яковлевича Маршака “Усатый-полосатый”. 

Аватар пользователя knave2000
knave2000(9 лет 3 месяца)

Просто это англоговорящий бот.

Аватар пользователя PaladinUSSR
PaladinUSSR(7 лет 10 месяцев)

"К сожалению, боту безразличны правильность или неправильность. Он не занимается анализом, он занимается — построением предложений."

господи, какое точное определение хохлизма да и вообще всей современной управленческой системы запада

Аватар пользователя юрчён
юрчён(11 лет 6 месяцев)

+++

Страницы