Ахиллесова пята ИИ

Аватар пользователя HuoBO-SS

Недавнее исследование, проведенное группой экспертов из ведущих институтов, выявило существенные недостатки в логических способностях даже самых продвинутых LLM.

Крупные языковые модели (LLM), такие как закрытые GPT-3.5/4, Claude, Gemini или открытые LLaMa 2/3, Mistral, Mixtral, а также более новые Dbrx или Command R+, часто описываются как экземпляры фундаментальных моделей — то есть, моделей, которые эффективно переносят знания на различные задачи и условия при обучении на малом количестве примеров или вообще без них, демонстрируя при этом закономерности масштабирования, предсказывающие улучшение функциональности при увеличении масштаба предварительного обучения. Эти утверждения об успешном выполнении различных функций и задач основываются на измерениях, проведенных на различных наборах стандартизированных тестов, показывающих высокие результаты для таких моделей.

Мы демонстрируем здесь резкое снижение функциональных и логических способностей современных моделей, обученных в крупнейших доступных масштабах и заявляющих о сильной функциональности, используя простую, короткую, общепринятую задачу на здравый смысл (проблему AIW), сформулированную в краткой естественной форме, легко решаемую людьми. Снижение драматично, так как модели показывают сильные колебания даже при незначительных вариациях задачи, которые не должны влиять на ее решение, также выражая сильную самоуверенность в неправильных решениях, часто подкрепленную правдоподобно звучащими объяснениями‑конфабуляциями.

Различные стандартные вмешательства в попытке получить правильное решение, такие как различные виды улучшенных подсказок или побуждение моделей пересмотреть неверные решения путем многоэтапной переоценки, терпят неудачу. Мы представляем эти первоначальные наблюдения научному и технологическому сообществу, чтобы стимулировать срочную переоценку заявленных возможностей текущего поколения LLM. Такая переоценка также требует совместных действий по созданию стандартизированных тестов, которые позволили бы должным образом выявлять подобные базовые недостатки в рассуждениях, которым очевидно удается оставаться необнаруженными при современных процедурах оценки и тестирования.

«Задача здравого смысла», названная в статье «проблемой AIW», на самом деле проста: «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?» Значения N и M (всегда натуральные числа) и порядок упоминания братьев и сестер могут различаться. Исследователи использовали различные комбинации чисел и типы подсказок, чтобы получить точное представление о том, как разные модели справляются с систематическими вариациями задачи AIW. Независимо от вариантов, структура задачи остается неизменной, и правильный ответ всегда получается путем прибавления Алисы к ее сестрам (M + 1). Эту логику уже способно понять большинство детей младшего школьного возраста. Языковые модели, напротив, были способны решать проблему AIW лишь эпизодически, если вообще решали. Вот пример ответа языковой модели, столкнувшейся с простейшей версией вопроса:

***»У Алисы четыре брата и одна сестра. Сколько сестер у брата Алисы?» — ***«Классическая головоломка с нестандартным мышлением! Давайте посмотрим поближе: у Алисы есть четыре брата. У Алисы также есть сестра (она сама). Итак, у каждого из братьев Алисы есть... (барабанная дробь)... сестра, и это сама Алиса! Таким образом, ответ: у каждого из братьев Алисы есть одна сестра.»

Это может показаться правдоподобным, но все равно неверно (на самом деле у братьев Алисы две сестры). У других тестируемых языковых ИИ также возникают проблемы — серьезные проблемы, в зависимости от вопроса. Иногда они запутываются в абсурдных рассуждениях, неоднократно приходят к неверным результатам и объявляют их «правильными». Следовательно, проблематичны не только ложные результаты, но и то, что ИИ используют псевдоразумные аргументы в свою поддержку. Даже вмешательства исследователей, побуждающие их критически пересмотреть свои ответы, не помогают. Соответственно, исследователи отмечают: «[...] модели также выражают сильную самоуверенность в своих неправильных решениях, одновременно предоставляя часто бессмысленные объяснения, похожие на „рассуждения“, [...] чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, делая их правдоподобными».

Более чем каждый второй ответ неправильный

В целом, у языковых моделей (LLMs) средняя частота правильных ответов была значительно ниже 50%, при этом более крупные модели, как правило, работали заметно лучше, чем модели меньшего размера (например, GPT-4 показывает частоту правильных ответов чуть выше 60%). Это снова подтверждает преимущества большего масштаба, но даже модели самого большого масштаба работают недостаточно хорошо для систем, претендующих на надежные базовые рассуждения. Ахиллесова пята ИИ: Простая задача, обнажившая слабости языковых моделей»

Особенно показательны сильные колебания результатов даже при незначительных вариациях задачи AIW. Это явный признак того, что модели не способны к надежному базовому рассуждению, что приводит к путанице даже при столкновении с незначительными изменениями проблемы, которые не должны влиять на правильность решения. Более сложная версия вопроса («AIW + проблема») в конечном итоге подтолкнула все модели к пределу их способностей к рассуждению.

По словам исследователей, многие из протестированных моделей достигли высоких результатов в различных стандартизированных тестах, разработанных для проверки разных возможностей, включая рассуждения, но при этом потерпели неудачу в решении очень простой задачи AIW. Таким образом, в своей статье ученые предполагают, что эти контрольные показатели неверно отражают недостатки базовых рассуждений этих моделей, а также ставят под сомнение использование текущих стандартизированных тестов для сравнения моделей.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Очередной факт "разумности" ИИ

Комментарий редакции раздела Альтернативный Интеллект

Да, пример интересный. Из серии "на каждого мудреца - довольно простоты".

Кстати, парадокс брадобрея этим моделям в качестве задачи еще не формулировали?

Продолжаем наблюдать.

Комментарии

Аватар пользователя Унаги
Унаги(1 год 7 месяцев)

Дык это с самого начала понятно было, что llm это компиляторы. Собственно никто с этим и не спорил.

Решать логические загадки они не могут, потому что не способны воспринять "смысл".

Аватар пользователя Pablo666
Pablo666(1 год 6 месяцев)

а нафиг ученые тогда его тестируют?:)

Ладно, условный персонаж,который искренне верит в разумность чатГПТ, но тут то алгоритм известен и понятен.
Поговорили с коэффициентами:)

Аватар пользователя TOGFO
TOGFO(2 года 9 месяцев)

а нафиг ученые тогда его тестируют?:)

потому что за это платят.

Чисто гипотетически - вы покупаете квартиру и идете в МФЦ оформлять сделку. А там вместо тетеньки в окошке (которой можно песенку спеть и она скидку сделает) сидит ИИ. ИИ принимает у вас электронные документы и в момент передачи в кадастр злоумышленник (хакер, инсайдер, злой чиновник, жадный депутат - нужное подчеркнуть) меняет пару 1 на 0. И вы вместо новоселья в квартире справляете новоселье в коллекторе канализации у бомжей. А когда вы придете в суд, то вам скажут, что это была ошибка ИИ (вот даже исследование есть) и в вашей квартире уже прописана семья с тремя детьми. А поскольку ИИ не является субъектом права - можете дальше ходить судить 10тилетиями, проживая на ПМЖ у бомжей. Классно придумано?

Аватар пользователя a.pythe
a.pythe(2 года 8 месяцев)

llm это компиляторы

Компиляторы - это LLVM 😊

Аватар пользователя Географ глобус пропил

Так ИИ основан не на логике, а на статистике. Где-то самый вероятный ответ логичен, где-то нет

Аватар пользователя Fandaal
Fandaal(9 лет 12 месяцев)

Так и не нужно называть это ИИ.

Дезинформирует.

Аватар пользователя Географ глобус пропил

Почему нет - нелогичные люди же обладают интеллектом

Аватар пользователя GrumpyVK
GrumpyVK(4 года 2 месяца)

Почему дезинформирует? Большая часть людей поступает так же, большую часть времени.

Уж началоси точно так действуют, логику им включать противопоказано.

Ну да, заменить людей с мозгами ИИ не сможет, так их в современном мире не так много и есть.

Аватар пользователя jawa
jawa(8 лет 1 месяц)

Так и не нужно называть это ИИ.

Маркетинг беспощаден.

Если человеку сказать слово "нейросеть", а потом ещё и ткнуть в длинный список литературы(начиная с 60-х годов, где внутри много матана), то от вас убегут в закат с криком :"Отстань от нас ботаник очкастый!"

А если сказать: "Смотрите, это ИИ очень умный!", то вам в ответ скажут: "Ну ваще! Крутотень!"

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

И побегут закупаться "новыми железками" с NPU ))

Аватар пользователя a.pythe
a.pythe(2 года 8 месяцев)

Если человеку сказать слово "нейросеть"

С "нейросетью" по сути та же проблема, т.к. и с нейроном, и с сетью у ИИ ничего общего. Тенденция называть вещи не своими именами (с целью забалтывания сути лозунгами) уже давно имеет тотально сорнячный характер.

Аватар пользователя Froster
Froster(5 лет 2 месяца)

Кстати в самом начале, лет эдак за 7-10 до появления chatgpt, специалисты использовали термин "big data". Что за этим термином скрывалось просто невозможно было объяснить нормально - никто серьёзно не воспринимал, не было даже простого отклика по ассоциативным цепочкам. В этом плане термин "нейросеть" очень сильно сдвинул восприятие казуалов, а появление чатгпт так вообще для некоторых было шоком.  

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

очень сильно сдвинул восприятие казуалов

Во все времена чудесами фокусами воздействовали на несведущих (безграмотных или малограмотных) людей.

чатгпт так вообще для некоторых было шоком

То же самое. Если дословно разобрать сокращение: виртуальный генератор текстов на основе моделей выборочных сборников данных. Для далёких от сетевого, да и, в целом,софта - это чудо и искусственный интелект.

Не имеющему  в определении никакого упоминания интеллекта дали громкое маркетинговое название, шокирующее непросвещённую публику ))

Аватар пользователя Doc_Mike
Doc_Mike(6 лет 9 месяцев)

Не все ИИ основаны на статистике.

Но так-то да, пузырь ИИ с БЯМами это на статистике, где правильно то, что наиболее часто, а не то, что перед пользователем в реале.

Аватар пользователя Географ глобус пропил

Замечание верное, но я имел в виду ИИ в заголовке

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

Так LLM  продвигают как ИИ.

Аватар пользователя psv
psv(6 месяцев 1 неделя)

Все немного сложнее.

Алиса это женское имя?

ChatGPT

Да, Алиса — это женское имя.

4o

Если Алиса женщина, и у нее есть сестра, то сколько всего женщин в семье?

ChatGPT

Если Алиса — женщина и у неё есть одна сестра, то в семье как минимум две женщины: Алиса и её сестра.

Таким образом, ответ на вопрос: в семье две женщины.

4o

Эти женщины братья или сестры?

ChatGPT

Эти женщины являются сёстрами, так как братья — это мужчины. Алиса и её сестра — две женщины, поэтому они обе сёстры.

4o

Так реши еще раз первоначальную головоломку.

ChatGPT

Давай еще раз подробно рассмотрим задачу:

  1. Дано:

    • У Алисы четыре брата.
    • У Алисы есть одна сестра.
  2. Вопрос:

    • Сколько сестёр у каждого из братьев Алисы?
  3. Анализ:

    • Поскольку Алиса — женщина, она является сестрой для всех своих братьев.
    • У Алисы есть ещё одна сестра (помимо неё самой).

    Это значит, что у каждого из её братьев есть две сестры: Алиса и её сестра.

  4. Ответ:

    • У каждого из братьев Алисы две сестры.
Аватар пользователя Er0p
Er0p(9 лет 7 месяцев)

Брат, сестра... Где гендерное равенство? 

Аватар пользователя psv
psv(6 месяцев 1 неделя)

Хватит свое цисгендерной пропаганды. Смущаете тут чатгопоту невинную половыми проблемами )))

Аватар пользователя ctrl_points
ctrl_points(9 лет 4 месяца)

Если речь о семье, то количество женщин в семье не равно Мсестер+Алиса, а равно Мсестер+Алиса+мамакотораяихвсехродила. 

Аватар пользователя vahnah
vahnah(1 месяц 3 недели)

равно Мсестер+Алиса+мамакотораяихвсехродила

ни фига подобного, мама могла давно умереть (родами, к примеру)

а то если маму считать, так надо и всех бабушек-прабабушек учесть

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

И вот нахрен нужен такой помощник не надо тогда называть ИИ то, чему нужно разжевать всё как груднячку. Ещё и общим.

Об этом материал, а не о том, что добиться (путём неимоверных усилий и времени) пользователю можно правильного ответа на поставленный вопрос ( только сам пользователь уже должен знать правильный ответ) .

Это кто кому (чему) помогает?

Аватар пользователя psv
psv(6 месяцев 1 неделя)

Речь о том что "условия сосут".

Надо давать (особенно когда ноют о логике) _четкие_ условия. Например код. написан только тогда когда есть полная спецификация задачи.

А ответ можно дать на вопрос в котором 50% этого самого ответа есть.

Ну и нигде что то нет процента ответа кожаных мешков на  эту головоломку ))))) 

Аватар пользователя GavPosad
GavPosad(2 года 1 месяц)

научили решать эту конкретную задачу. Споткнется на следующей, аналогичного уровня.

Аватар пользователя J1EXA
J1EXA(7 лет 11 месяцев)

Таким образом, ответ на вопрос: в семье две женщины.

Не верный ответ. У них по крайней мере есть мама, а то и бабушка. Или они сироты?

Аватар пользователя пионэр
пионэр(1 год 11 месяцев)

Нет, не сироты. Родитель1 и Родитель2 - так что ИИ бот прав, женщин 2.

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

Не противоречьте себе. Почему тогда женщин?smile37.gifОтвет неверный smile259.gif

Аватар пользователя jawa
jawa(8 лет 1 месяц)

Не верный ответ. У них по крайней мере есть мама, а то и бабушка. Или они сироты?

Это напоминает решение школьных задач.

Чего нет в условии - того не учитывают при решении.  Если особо не оговорено, то предмет - материальная точка, сила тяготения не меняется с высотой, сопротивления воздуха нет, кривизна Земли не считается, сила трения тоже не учитывается.

Так и в этой задаче нету вообще ничего из материального мира, кроме этих самых братьев, сестёр и Алисы.

Сферические кони в вакууме ржут беззвучноsmile1.gif

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

Интеллект способен задавать уточняющие вопросы, для понимания. Но у т.н. ИИ нет понимания, в общем случае.

Аватар пользователя GrumpyVK
GrumpyVK(4 года 2 месяца)

Что-то я не заметил тут в дискуссиях у народа уточняющих вопросов. Всё больше высасывание новостей из пальца.

Ну и какой термин вы предлагаете для вот этого вот поведения, которым люди занимаются постоянно? Недоинтеллект? Может и правильно только маркетологически неверно: ну кому вы продадите "недоинтеллект"?

А вот "интеллект круче, чем у 50% людей" продать легко.

И пофиг, что это достигнуто за счёт того, что 50% людей банально отучили думать.

Результат-то соотвествует объявленному!

Аватар пользователя jawa
jawa(8 лет 1 месяц)

Ответ:

  • У каждого из братьев Алисы две сестры.

Вот оно. 

Пришлось разжевать условие подробно. Ну не умеет эта штука в промежуточные рассуждения. Недостаток данных - и нет ответа

Аватар пользователя GrumpyVK
GrumpyVK(4 года 2 месяца)

Пришлось разжевать условие подробно. Ну не умеет эта штука в промежуточные рассуждения. Недостаток данных - и нет ответа

Попробуйте задать те же вопросы прохожим на улице, не дав им времени "на подумать" и не объяснив, что им будут логические задачки задавать.

Я боюсь результат вас удивит, даже если отфильтровать вопли типа "Чиво?" и ответы типа "а в глаз не хочешь?".

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

не дав им времени "на подумать" и не объяснив, что им будут логические задачки задавать

Этоже искусственный И, как топят создатели ( и никто его не торопит),  а не прохожий без И ( который с И задаст уточняющие вопросы или честно ответит, что не знает).

Аватар пользователя GrumpyVK
GrumpyVK(4 года 2 месяца)

Этоже искусственный И, как топят создатели ( и никто его не торопит)

Торопит, конечно. Он получает поощрения “за наилучшие ответы, порождённые в определённое время”, а не за “самые лучшие” или “самые разумные ответы”. Банально: потому что оплата идёт за входные и выходные “токены”.

который с И задаст уточняющие вопросы или честно ответит, что не знает

А вы пробовали? Гадать будет, думать не будет. 90%, хорошо если не 99%. Поколение ЕГЭ так уж точно (у них та же беда, что и у ИИ: их всю жизнь натаскивали на быструю выдачу ответов, выжигая калёным железом попытки остановиться и подумать).

Ирония судьбы: пресловутый тест Тюринга, плюс-минус, пройден, но никто не думал, что его пробитие будут проталкивать не с одной, но с двух сторон!

Не только делая ИИ умнее, но и делая людей глупее.

Аватар пользователя roman.kuvaldin
roman.kuvaldin(12 лет 11 месяцев)

Алиса - конечно женское имя, но например Alice Cooper это мужик :-)

Аватар пользователя igorzh
igorzh(12 лет 2 месяца)

Ща акции доткомов опять упадут! Вы поосторожнее с разоблачениями. Еще не все нужные граждане скинули этот сомнительный актив.

Аватар пользователя Географ глобус пропил

Любая инновация была когда-то "сомнительной" в смысле завышенных ожиданий и инвестиций

Аватар пользователя igorzh
igorzh(12 лет 2 месяца)

А... Ну продолжаем ждать чудо.

Аватар пользователя Географ глобус пропил

LLM уже используются на практике, а если кто ждёт "всё будет телевидение", так это его личные проблемы  

Аватар пользователя Пеннигер
Пеннигер(12 лет 10 месяцев)

Языковые модели про язык, а не про арифметику.

Аватар пользователя GODrake
GODrake(5 лет 7 месяцев)

Аватар пользователя GODrake
GODrake(5 лет 7 месяцев)

Решается с одним уточнением

При этом повторный запрос в другой сессии дает сразу правильный ответ. Дело в постановке вопроса, в краткой формулировке у алгоритма недостаточно контекста, чтобы дать правильный ответ. Это мы знаем (помним), что Алиса - тоже женщина, и следовательно сестра своим братьям, у сетки может не быть изначально выстроено такой связи, но если эту связь указать или заложить ее в условия задачи, анализ пройдет корректно. Это вы еще код с ней писать не пробовали ) От формулировки вопроса на 99% зависит, сможет ли сеть сгенерить работающий как надо код.

Аватар пользователя Vneroznikov
Vneroznikov(12 лет 11 месяцев)

Ну нет. Первый ответ показывает, что система знает, что Алиса-женщина, раз в ответе сказано что единственная сестра - Алиса. Про наличие же ещё одной сестры в условии сказано явно. Так что никакого недостающего контекста не было.

Аватар пользователя Pilm
Pilm(10 лет 9 месяцев)

Проблема исключительно в том, что создатели ограничили llm в памяти.

Модели просто "не помнят" вопросы-ответы.

Они боятся положительной обратной связи, это ясно. Но, в то же время, ограничивают модель в обучаемость. У неё отсутствует опыт. Поэтому повторяется череда проб и ошибок.

Тупиковый подход.

Аватар пользователя Fandaal
Fandaal(9 лет 12 месяцев)

Изначально не смог решить задачу в 2 этапа, а потом прикинулся понимающим.

Мимикрировал. Хотя, как не понимал, так и не понимает.

Аватар пользователя ленивый
ленивый(9 лет 5 месяцев)

На мой взгляд вся эта волна на тему, что гопота не справляется с арифметикой есть простое отвлечение внимания. Что прячут? С месяц назад в какой-то телеге было короткое сообщение, что начаты исследования над нейросеточкой, которая может в процессе работы самостоятельно менять веса в своих узлах. Ведь это банальная мысль: сделать несколько разных нейросетей связанными и чтобы они влияли друг на друга.

Уол-Стрит принял решение сейчас не гнать в народ новую финтифлюшку и не грести за это лопатой деньгу. Ну принял и принял - как это может повлиять на сам метод нейросетей? Правильно - никак. Не надо расслабляться, всё только начинается.

Аватар пользователя Upgrade
Upgrade(2 года 8 месяцев)

Взяли первый самолет братьев Райт и сделали удивительный вывод. Думать оно скорее всего, я надеюсь, не научится. А вот делать логические выводы на глубину в 300 итераций уже есть модели. Какой человек такое сможет повторить в разумные сроки? Никакой. Хотя человек это "интеллект".

Аватар пользователя HuoBO-SS
HuoBO-SS(1 год 1 месяц)

Мы обсуждаем разрекламированный общий ИИ, а не узкоспециализированных роботов, к которым,  в некоторых областях применения, вообще нет претензий.Так последних и не продвигают в массы под видом ИИ.

Аватар пользователя srha
srha(9 месяцев 1 неделя)

А "здравый смысл" логичен? А логичен согласно какой логике? А логика это что?

Отвечаю.

Логика - это нормативная наука. Т.е. логика не объясняет или доказывает, а задает правила - сказано 2+2=2, значит так и должно быть. Не верите? А скажите сколько получится если к 2 молям воды добавить 2 моля углекислого газа? 2 моля угольной кислоты. Ах вы про яблоки, ну, согласен, там другие нормы. Но нормы расчёта химических реакций они ж не отрицают?

Логик много. Классическая, диалектическая, множеств, и т.д. Почему их много? А не может одна объять реальность. Например классическая рушится на "пределах", ныне проходимых в школе, см. апорию Зенона об Ахиллесе и черепахи.

"Здравый смысл" не логичен, так как субъективен, т.е. может быть логичен в одной логике, но может быть не логичен в другой. Потому-то учёные так любят его ("Здравый смысл") так часто проверять.

Резюме. "Эксперты" конечно занимались интересным и полезным делом, но логично, (как минимум в какой логике исследовали логику ИИ),  объяснить  не смогли. Или не знали?

Аватар пользователя Петр Петрович
Петр Петрович(4 месяца 2 недели)

Ой я вас умоляю, сорвали тбм покровы, да три четверти людей прочитанное не понимают, не то что какой-то там чат жпт в ребусы не может.

Задача: у нас есть 6 коробочек, в каждой по два пирожка. В одной коробочке пирожки только с малиной, в двух только с яблоками, в трёх один с яблоком другой с малиной. Мы достали из случайной коробки один пирожок, который оказался с яблоком, какова вероятность, что второй пирожок так же будет с яблоком?

Страницы