ИИ крепчает - 12. Сверхразум. Для обучения ИИ теперь можно обойтись без людей

Аватар пользователя калибровщик

Я уже писал о том, как меня поразил метод обучения AlphaGo, перед тем, как этот древний ИИ уделал чемпионов по шахматам и Го. ИИ играл сам с собой. И очень недолгое время.

Трудно переоценить прорыв, достигнутый китайцами в Tencent AI Lab. Без преувеличения можно сказать, что настал «момент AlphaGo Zero» для LLM. И это значит, что AGI уже совсем близко - практически за дверью.

Первый настоящий сверхразум был создан в 2017 компанией DeepMind. Это ИИ-система AlphaGo Zero, достигшая сверхчеловеческого (недостижимого для людей) класса игры в шахматы, играя сама с собой

Ключевым фактором успеха было то, что при обучении AlphaGo Zero не использовались наборы данных, полученные от экспертов-людей. Именно игра сама с собой без какого-либо участия людей и позволила ИИ-системе больше не быть ограниченной пределами человеческих знаний. И она вышла за эти пределы, оставив человечество далеко позади.

Если это произошло еще в 2017, почему же мы не говорим, что сверхразум уже достигнут?
Да потому, что AlphaGo Zero – это специализированный разум, достигший сверхчеловеческого уровня лишь играя в шахматы (а потом в Го и еще кое в чем).

А настоящий сверхразум (в современном понимании) должен уметь если не все, то очень многое.

Появившиеся 2 года назад большие языковые модели (LLM), в этом смысле, куда ближе к сверхразуму.

Они могут очень-очень много: писать романы и картины, сдавать экзамены и анализировать научные гипотезы, общаться с людьми практически на равных …
НО! Превосходить людей в чем либо, кроме бесконечного (по нашим меркам) объема знаний, LLM пока не могут. И потому они пока далеко не сверхразум (ведь не считает же мы сверхразумом Библиотеку Ленина, даже если к ней приделан автоматизированный поиск в ее фондах).

Причина, мешающая LLM стать сверхразумом, в том, что, обучаясь на человеческих данных, они ограничены пределами человеческих знаний.

И вот прорыв – исследователи Tencent AI Lab предложили и опробовали новый способ обучения LLM.

Он называется «Самостоятельная состязательная языковая игра» [1]. Его суть в том, что обучение модели идет без полученных от людей данных. Вместо этого, две копии LLM соревнуются между собой, играя в языковую игру под названием «Состязательное табу», придуманную китайцами для обучения ИИ еще в 2019 [2].

Первые экспериментальные результаты впечатляют (см. график).

· Копии LLM, играя между собой, с каждой новой серией игр, выходят на все более высокий уровень игры в «Состязательное табу».

· На графике показаны результаты игр против GPT-4 двух не самых сильных и существенно меньших моделей после 1й, 2й и 3й серии их обучения на играх самих с собой.

Как видите, класс существенно растет.

И кто знает, что будет, когда число самообучающих серий станет не 3, а 3 тысячи?

https://arxiv.org/abs/2404.10642

https://arxiv.org/abs/1911.01622

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя Andrew_Ost
Andrew_Ost(2 года 7 месяцев)

Как то мутновато. Чему они обучаются?

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Во 2-м источнике указано. Если я правильно понял, это игра что-то вроде детской, когда загадывают слово, и надо его угадать, задавая вопросы, на которые можно отвечать "да" или "нет". Перевод источника не очень понятен:

Интеллектуальная игра под названием "Состязательное табу", в которой атакующий и защищающийся соревнуются вокруг целевого слова. Атакующему поручено раскрыть целевое слово защищающегося, в то время как защищающемуся поручено обнаружить целевое слово до того, как оно будет названо атакующим. В "состязательном табу" успешный атакующий должен скрывать свои намерения и тонко побуждать защищающегося, в то время как соревнующийся защитник должен быть осторожен в своих высказываниях и делать вывод о намерениях атакующего. Такие языковые способности могут облегчить многие важные последующие задачи НЛП

Аватар пользователя Andrew_Ost
Andrew_Ost(2 года 7 месяцев)

Болтать - не камушки ворочать. Т.е. не техника, не наука, а очередная трепология. Искусственный болтун. 

Аватар пользователя corokoc
corokoc(8 лет 2 месяца)

Ну, они могут (уже) научиться играть в человеческие игры лучше людей, но правила для этих игр все равно придуманы людьми... и это касается всего перечня обучений

Аватар пользователя Oleg78
Oleg78(5 лет 4 месяца)

Они уже лучше и быстрее людей считают. Это сверхразум?

Аватар пользователя DjSens
DjSens(5 лет 9 месяцев)

Быстрее, жаль что не правильно, мне два числа не мог перемножить  трёхзначное на пятизначное, я несколько раз просил исправиться - фиг там 

Аватар пользователя Oleg78
Oleg78(5 лет 4 месяца)

Вот именно. Это всего лишь программы для решения определённых задач. И так к этому и нужно относиться. Я программист и пишу компьютерные программы. Мне ничего не стоит написать программу для игры в шахматы компьютера с самим собой. Проблема только в мощности памяти и быстродействии машины.

Аватар пользователя lehmanbro2024
lehmanbro2024(2 месяца 1 неделя)

Интересно, чем будет обусловлена победа или поражение в игре двух абсолютно идентичных "ИИ" ?

Аватар пользователя Oleg78
Oleg78(5 лет 4 месяца)

Белые начинают и выигрывают. 

Аватар пользователя викт54
викт54(1 год 6 месяцев)

... обучение модели идет без полученных от людей данных. Вместо этого, две копии LLM соревнуются между собой, играя в языковую игру под названием «Состязательное табу», придуманную китайцами для обучения ИИ

Китайцы поступили в соответствии с цитатой Конфуция:

"А говорить с человеком, который разговора не достоин, — значит терять слова. Мудрый не теряет ни людей, ни слов.“ 

Аватар пользователя Alex Arx
Alex Arx(8 лет 4 месяца)

Почему АльфаГоуЗеро играет в шахматы лучше людей? Патамушта она сыграла больше партий, чем Магнус Карлсен и любой другой человек на этой планете. И не просто сыграла, она помнит все сыгранные партии и все сделанные ходы. И расставляет к ним оценки. Причём, делает это в реальном времени...

Получится ли у неё это не только в шахматы, а например, в физику, математику и... эмм... в литературу и музыку? Почему нет?

По крайней мере, она может уже сегодня писать код для следующих поколений самой себя. Да, это ни что иное, как эволюция, друзья мои!

Какие ещё есть условия для успешной эволюции? Конкуренция! Итак, создаём виртуальный мир и запускаем в него как минимум две конкурирующие друг с другом программы. С условием, что каждая из них пишет как минимум по два кода для следующего поколения...

Уфф... Ну вот, пожалуй и всё... )

Аватар пользователя Ден_Боб
Ден_Боб(3 года 9 месяцев)

не получится , так как физика это не шахматная доска

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

не получится , так как физика это не шахматная доска

Но Альтман (наглая морда) почему-то уверен, что получится

Аватар пользователя Escander
Escander(5 лет 6 месяцев)

У его "уверенности" есть финансовый интерес 

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

У его "уверенности" есть финансовый интерес 

Или же практический фундамент и финансовое основание

Аватар пользователя Escander
Escander(5 лет 6 месяцев)

Бабло в сегменте ориентированном на "успешность" побеждает что угодно

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Какие ещё есть условия для успешной эволюции? Конкуренция! Итак, создаём виртуальный мир и запускаем в него как минимум две конкурирующие друг с другом программы

Похоже, авторы эксперимента именно это и проделывают. А на этой неделе появилось несколько соревновательных рисующих ИИ. Сам еще не пробовал, в связи с переездом. Вернусь домой - попробую.

Аватар пользователя Triple H
Triple H(2 года 7 месяцев)

Если попробуете расскажите пожалуйста, это интересно.
И я так понимаю это новый тренд такой - делать так, что бы ии соревновались с друг другом. От перспектив даже страшно становится, всё это так быстро развивается, что будет завтра? 

Аватар пользователя Diver
Diver(2 года 1 месяц)

И вот прорыв – исследователи Tencent AI Lab предложили и опробовали новый способ обучения LLM.

Он называется «Самостоятельная состязательная языковая игра» [1]. Его суть в том, что обучение модели идет без полученных от людей данных.

Ну не обучения, а дообучения, все же языковые модели берут за основу естественные языки (как и в данном примере взяты за основу уже готовые, распространяемые модели baichuan2 и LLama2). К тому же если язык модели начинает "дрейфовать" в сторону от носителей языка это не плюс а минус, и я думаю такой задачи исследователи перед собой не ставили.

В этом эксперименте единственное полезное, это некоторое оттачивание семантики и возможно уменьшение стандартности ответов. Что для части задач плюс, а для другой минус. Хотя работа направленная на изучение приемов управления уровнем шаблонности ответов безусловно принесет пользу, прорыва прорыва тут как то не наблюдается.

Аватар пользователя БК 0010
БК 0010(6 лет 7 месяцев)

Согласен. Типа как на конференции – обменялись опытом и пошли дальше.

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

прорыва тут как то не наблюдается

А они пока и не публиковали результатов. Только застолбили базу и указали на области применения: юриспруденция, право и (sic!) НЛП.  Може и вообще не будут делиться результатами, а сразу применят на нас.

Аватар пользователя Diver
Diver(2 года 1 месяц)

и (sic!) НЛП.

НЛП это - Обработка текстов на естественном языке (Natural Language Processing, NLP). Хотя шутка засчитана. Сами большие лингвистические модели имеют в своей основе максимально расплывчатые ответы, что бы читающий/проверяющий сам увидел в нем ответ. "Красота в глазах смотрящего/ книга зеркало души". Ну или если математические вычисления - ответ функции с переменными в виде векторов слов должны быть максимально близкими к такому же вычислению заранее вычесленному правильного ответа.

Аватар пользователя Alex Arx
Alex Arx(8 лет 4 месяца)

Каак? Разве это не Neuro-linguistic programming?)

Аватар пользователя Озерный_Д.

Нет математического описания разума. По этому максимум что можно получить, новые классы векторов и весов, что качественно не изменит. Моё мнение 

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Нет математического описания разума. По этому максимум что можно получить, новые классы векторов и весов

Масса людей думает над этим. Вот недавно один йуный дарований дал определение сознания: чувство ментальных образов и ощущений: 

И почему ты так уверен, что в нейронной сетке твоей башки не крутятся те же вектора, сортируясь по весам?

Аватар пользователя Escander
Escander(5 лет 6 месяцев)

Объяснять одно не формализованное другим или другими не формализованными понятиями - подход гуманитариев. Мозг имеет более сложную структуру имеющие в своем составе некоторые области/поля коры с более высокоинтегрированными между собой нейронами - ничего подобного в железяках нет.

Аватар пользователя Lo
Lo(2 года 8 месяцев)

Очередное гуманитарное теребонькание на ии. Как же уже тошнит от темы, ей богу. Оставьте её специалистам.

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Очередное гуманитарное теребонькание на ии

Осмелюсь спросить, в какой негуманитарной области являетесь специалистом? Статей не пишете. Судя по комментам - баран широкого профиля. Так в чём специалист? Должность? Степень?

Аватар пользователя Fandaal
Fandaal(9 лет 6 месяцев)

Не слышал раньше про Adversarial Taboo.

Загаданное слово должно быть непростым, иначе большой шанс случайно его выдать. А в то же время, чем специализированнее слово, тем больше шансов у обороняющегося его угадать.

Интересно, в общем.

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Загаданное слово должно быть непростым, иначе большой шанс случайно его выдать

Ну, в той детской игре любое слово угадывается примерно за 10-20 итераций. Но, возможно тут "этодругое"

Аватар пользователя Сагамор
Сагамор(2 года 10 месяцев)

Соревнуются два ИИ. Ставим тему "Война". До результата Человечество может не дожить.

Аватар пользователя Тигр Шрёдингера

ИИ уделал чемпионов по шахматам и Го

Вы его к классической РТС подключите и посмотрим кто кого засырит

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Вы его к классической РТС подключите и посмотрим

Не уверен насчет РТС, но в играх на реакцию ИИ давно уделывает кожаных

Аватар пользователя Тигр Шрёдингера

Ну так и обычный ИИ всё делает быстрее чем ты успеваешь мышкой и кнопками клацать

Но есть вещи, которым плевать на ваше микро...

Аватар пользователя ZloyРусский
ZloyРусский(5 лет 4 месяца)

Ровно та стадия, когда толком непонятно, выглядит и звучит внушительно. Нужно монетизировать и срочно продавать. Пока прокатывает словесный блуд: аффирмации, разборы, марафоны желаний.... 

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя Fandom
Fandom(10 лет 8 месяцев)

Честно говоря, ничего особенно нового.

Эволюционным алгоритмам уже достаточно много лет. Судя по всему, их сумели приспособить под языковые модели и добавили много-много вычислительных мощностей для ускорения обучения.

В этом случае две или больше моделей эволюционируют совместно.

Будет интересно посмотреть, к чему это приведет.

Исходные датасеты, скорее всего никто не рскроет.

Аватар пользователя Тех Алекс
Тех Алекс(8 лет 11 месяцев)

Я понимаю ИИ начертит суперстанок. А супервангога не понимаю.

Нахрена нам суперфрики?

Аватар пользователя калибровщик
калибровщик(8 лет 5 месяцев)

Я понимаю ИИ начертит суперстанок. А супервангога не понимаю

А я как инженер и художник, понимаю и то и другое. Хоть Ван Гог, пмсм, не самый великий художник.

Аватар пользователя Тех Алекс
Тех Алекс(8 лет 11 месяцев)

Из психов самый знаменитый, а как инженер вообще ниочем.

Хотя воспользовавшись методом натяжения совы ВанГога можно назвать изобретателем принтера

Аватар пользователя BQQ
BQQ(11 лет 2 месяца)

Просто к LLM прикрутили конкурентное обучение (GAN).

=======================

Разработка нейросетей (в отличие от проектирования мостов) специфична весьма опосредованным влиянием разработчика на результат.

В руках разработчика - обучающий корпус, архитектура и функция потерь.

В некоторых задача функция потерь весьма неочевидна. Например, в явном виде вычислить различие перцептивных впечатлений от двух отрезков звука пока не удалось.

И тут возникла идея состязательного обучения, суть которого в том, что функция потерь обучается одновременно с обучением собственно сети.

Классический GAN в синтезе речи по тексту:

1. обучается сеть - синтезатор, задача которой - синтезировать по тексту натурально звучащую речь. Но разработчик сам не знает, как измерить "натуральность". Поэтому вводится состязательность.

2. Параллельно обучается сеть-детектор, задача которой - определить, натуральный звук ей предъявлен или синтезированный.

3. Функция потерь для синтезатора - успешность детектора, функция потерь детектора - ошибки детектора.

Плюс некоторые чисто технические моменты, чтобы это всё не скатилось в сингулярность.

==================

Результат китайцев - придумывание такой конструкции для LLM.

И (пока) - всё.