Программа AlphaStar, разработанная DeepMind, смогла обыграть двух профессиональных игроков в стратегию в реальном времени StarCraft II. Каждого из игроков-людей нейросеть победила в пяти матчах. Описание работы программы доступно на сайте DeepMind, а посмотреть на AlphaStar в деле можно на YouTube.
Для обеих частей StarCraft уже достаточно давно разрабатываются боты и даже проводятся соревнования подобных программ, однако до сих пор таким алгоритмам не удавалось победить человека. Дело в том, что несмотря на победу программы AlphaGo в настольной игре го (которая долгое время считалось слишком сложной для машин) со стратегией в реальном времени все обстоит иначе — это игра с закрытой информацией, в которой нужно решать большое количество задач одновременно. Компания Blizzard объявила о создании открытого API для StarCraft II еще летом 2017 года, но с тех пор заметного прогресса почти не было — даже нейросеть, разработанная DeepMind, долгое время не могла показать блестящего результата и проигрывала легкому уровню сложности встроенных алгоритмов.
Теперь компания DeepMind (входит в состав холдинга Alphabet) продемонстрировала, что их новая программа AlphaStar способна обыграть профессиональных игроков. При создании AlphaStar использовался метод глубокого обучения с подкреплением, а также обучение с учителем, в качестве тренировочного датасета разработчики использовали предоставленные компанией Blizzard анонимизированные записи игр настоящих людей. Обученная на этих играх нейросеть научилась побеждать встроенные алгоритмы StarCraft II на самой высокой сложности в 95 процентах случаев, после чего специалисты DeepMind заставили программу играть с самой собой. Разработчики отмечают, что сначала в «лиге AlphaStar» доминировал раш — тактика быстрой победы путем строительства большого количества сравнительно дешевых юнитов. Однако затем нейросеть научилась бороться с такими атаками и начала делать упор в том числе и на экономическое развитие. Всего на «лигу AlphaStar» ушло 14 дней игры агентов друг с другом, что эквивалентно 200 годам игры в StarCraft II.
Сначала нейросеть выиграла пять матчей из пяти против TLO (Дарио Вунш, Германия), а затем другая версия нейросети победила пять раз подряд игрока MaNa (Гжегож Коминч, Польша). Оба профессионала входят в сотню сильнейших игроков в StarCraft II. Интересно, что средний APM (количество действий в минуту) нейросети оказался значительно меньше, чем у ее противников.
Стоит отметить что все же небольшое преимущество у AlphaStar было — несмотря на то, что туман войны закрывал карту для нейросети так же, как и для человека, программа получала для обработки не частичное изображение известной области (условный экран), а видела сразу все, что позволяет увидеть игра. Благодаря этому нейросети не приходилось постоянно переключаться между разными зонами карты для контроля за происходящим. Когда же для еще одного демонстрационного матча с MaNa разработчики заставили AlphaStar играть с обычным ограничением масштаба видимой области, то нейросеть проиграла человеку. Правда, в DeepMind отмечают, что самостоятельно двигающая камеру версия программы обучалась в «лиге AlphaStar» всего семь дней.
Первая часть StarCraft тоже представляет собой сложную задачу даже для методов глубокого обучения. Так, в октябре 2017 года своего бота для этой игры представила компания Facebook, и он оказался слабее программ, созданных программистами-любителями. Специалистам из Alibaba Group и Университетского колледжа Лондона удалось научить свою программу неплохому уровню микроконтроля юнитов при ведении боя, но на полноценную игру их разработка все еще не способна.
Автор: Николай Воронцов
Комментарии
Вы уверены что не отстали от новостей?)
Как раз публичные патенты появляются:
https://habr.com/ru/company/it-grad/blog/426737/
Но, имхо - для Т-800 хватит и хорошо отмасштабированного вот такого.
https://en.wikichip.org/wiki/intel/loihi
Нейроморфные процессоры, пусть даже на микроядерной структуре - как раз уже появляются в железе, и для практических задач в рамках Т-800 - их вполне хватит.
А с полноценным нейроном и энергонизовисимой памятью на уровне единичного элемента - это заявки на скайнет и безусловное превосходство над человеком по всем параметрам)
Так они сделаны на обычных ключевых транзисторах, а я почему-то думал, что они хоть и на кремнии, но внутри имеют что-то особенное. Тупиковая ветвь ИМХО.
В каментах на хабре пишут
В реальном синапсе сигнал аналоговый, имеющий очевидно, определенную ширину полосы, а они заменили его на однобитный да/нет. И при этом имеют наглость называть это поделие аналогом человеческого. Ясен пень, указанное количество якобы нейронов и синапсов надо делить на два порядка и тогда все становится на места. Ну, то-есть понятно почему ИИ такой тупой.
Вы или ошибочно используете термин, или вас куда-то не туда занесло. Никакого широкополосного сигнала и тем более частотного или какого-либо ещё модулирования на биологическом уровне нет.
Да, в живом нейроне сигнал аналоговый (одна численная величина - сила сигнала), но и в патенте спайк описан как пакет данных, в частном случае - однобитный. Ценой замедления быстродействия например раз в 5 и прописывания простейшего сумматора в логике нейрона - можно получить 32 градации сигнала, что будет точнее чем биологический нейрон.
Ещё раз - снижаться будет частота работы сети (которая и так на порядки превосходит человеческую), а никак не количество нейронов и синапсов.
А здесь - вообще чушь. Вы не знаете ни одной системы обученной на этом процессоре, поэтому оцениваете исключительно свои фантазии.
О теминах:
Ну если это так, то в принципе вы правы, но я сомневаюсь что 32 градации будет достаточно. Пруфы где?
Это вы сейчас чушь написали. Этой статьи об АльфаСтар достаточно, чтобы оценить возможности такого ИИ. Там еще пахать и пахать, прежде чем такому ИИ доверят что-то вроде управления боевым самолетом перехватчиком.
По терминам - вы привели цитату, подтверждающую мои слова, и? Где здесь про "определенную ширину полосы"?
Уменьшаете частоту сети в 10 раз вместо 5 и получаете 2^10 градаций. Мало? Замедляете ещё. Это степенная зависимость, а частоту можно замедлять и дальше.
Альфа-стар не имеет вообще никакого отношения к этой архитектуре и считается на специализирванных FGPU/числодробилках.
ТруНорд - классический набор из 100500 классических процессоров. Транспьютер, модный в 1980-е. Это не путь вперед.
Лойхи - да, это интересно... но 130000 нейронов - это очень, очень далеко от Т-800. Даже на автопилот для машины несколько десятков штук потребуется, а уж на эмуляцию хоть сколь-нить существенной части 100 000 000 000 нейронов человека нужны сотни тысяч таких чипов. Чипы должны стать в тысячи раз мощнее и в тысячи раз дешевле.
Это правильный старт, но лишь самое начало пути.
Штука в том что нейропроцессор нужен только для динамического обучения. Исполнять уже обученную сетку можно не используя его вообще. Вопрос в алгоритме или нейросетке верхнего уровня, которая бы обрабатывала полученный опыт, последовательно дообучая существующие сетки на нейроморфном железе. При том это можно делать как в реальном времени (тк частота обработки на порядки выше человеческой) так и после, тк ничего не мешает запоминать опыт и обрабатывать его потом.
*Да и т-800 ничего особого не показывал, в основном работа с заложенными базами, самообучения там был мизер)
Видео с адекватным русским комментатором:
Пропиарю часть опубликованного мной исследования (в тексте моего поста этого нет, доступно по ссылкам на источник)
Глубокое обучение. Об изъянах нейросетевого интеллекта:
...
А кроме как в игрушки играть эти "нейро"сети что то умеют?
На бирже уже вовсю спекулируют
умеют - например Распознавание голоса, Распознавание объектов, анализ предпочтений, комплексный анализ в молекулярной химии.... реальных применений таких сетей Много и они есть практический вкаждом Смартфоне сейчас - и вы скорее всего каждый день ими пользуетесь даже не замечая - от Recaptha до Ok, Google и даже прогноза и пробочная ситуация от яндекс пробок это именно аналитика от нейросети по отрывочным данным. Счас даже для метеопрогнозы делаются нейросетями.
Да, после Alpha Zero процесс напрягает все больше и больше.
Продолжат с биржевой торговлей, затем плавно перейдут к политике и войне...
"Когда же для еще одного демонстрационного матча с MaNa разработчики заставили AlphaStar играть с обычным ограничением масштаба видимой области, то нейросеть проиграла человеку."
Иными словами, мы отключили читы и нейросеть слилась. Скучно девочки, мухлеж есть мухлеж.
И потом опять аналог шахмат, слабо партейку в обычного дурачка, и все встанет на свои места.
Этого не может быть, потому что этого не может быть никогда!)
От победы в Го до этого урезанного старкрафта прошло ровно год и месяц.
дурачок, или подкидной, и посмотрим сколько пройдет времени. Есть еще одна задачка но ее приберегу на сладкое.
посмотрите видео выше - все станет понятнее
Спасибо посмотрел, посмеялся. Если что, мне немного знакома тема нейросетей, так отдаленно, поэтому и скептицизм со временем только растет.
Если вам хоть немного знакома тема нейросетей вы должны понимать что перемещение экрана и прогнозирование точек интереса - это максимум пара дополнительных слоёв сети и пусть даже в десять раз более долгое обучение (особенно при уже наличествующем прогнозировании точек встречи). В примитивном случае - вообще решается непрерывным переключением между точками интереса.
Единственный проигрыш сети - не от "отключения читов", а от явного пойманного бага, из-за недообученности в изменившихся условиях.
+ много
сам старкрафтер с 15 летним стажем, вот в точку сказано, отключили читы и она слилась
Если смотреть на реплэи ботов 99% их кликов абсолютно бессмысленные движения, а тащат бой они исключительно за счет искусственно данного им преимущества над человеком. Т.е. читы
И Вам много +++))
Одно время смотрел реплеи Боксера вместо сериалов)
Одна карта, одна раса, туман войны (ну или карта, неважно) - ну нет, это совсем базовый уровень. При таких исходных даже нуб имеет шанс выиграть у профи (КМК).
А я до сих пор смотрю))
Мертвая и неактуальная игра.
Да уж. Вот когда нейросеть научится играть в футбол, вот тогда...
>>несмотря на то, что туман войны закрывал карту для нейросети так же, как и для человека, программа получала для обработки не частичное изображение известной области (условный экран), а видела сразу все, что позволяет увидеть игра
Это и есть чит.
>>Интересно, что средний APM (количество действий в минуту) нейросети оказался значительно меньше, чем у ее противников.
APM не религия и не догма. У меня против ИИ (эксперт) АПМ так себе. Просто я знаю алгоритмы текущего ИИ и кликать как дятел просто нет необходимости.
ЗЫ: Конечно, интересно будет пободаться. Но игру против человека не заменит от слова совсем.
Именно поэтому ДипМайндовцы акцентируют внимание на APM: машина не кликает больше, не выигрывает у людей за счёт микроконтроля или чего-то подобного. Она кликает лучше.
Думает лучше.
Ну, по меньшей мере, лучше вот этих игроков из сотни (но раз из сотни - наверное, это неплохие игроки).
Поиграем, посмотрим. Между прочим, даже текущий ИИ умеет харасить лучше многих по платину включительно. Делает первым делом баньшу с инвизом и часто на этом ГГ.
Это не "текущий ИИ" умеет харасить. Это хорошие игроки умеют харасить, сказали об этом девелоперам, которые и заскриптовали эту тактику (с кучей многих других). Отличие принципиальное: тут последовательность действий нашёл (придумал) всё-таки человек.
А у ДипМайнда - машина.
Не думает лучше. Микрит лучше. Это две большие разницы.
Вот именно. В раскладе равное/на равное количество юнитов нейросеть со временем будет уделывать человека, как бог черепаху. Он абсолютно точно, по таймингу в миллисекунды будет отводить подбитых и будет точно концентрировать огонь и распределять цели. Параллельно во много потоков. По пикселям отходя и отходя. Тут у манипулятора типа "мышь" и управляющего устройства типа рука/палец никаких шансов.
Посмотрите ролики. Они впечатляют.
Сеть почти всегда впереди по экономике и вполе умеет в грамотную стратегию, в зависимости от действий противника. Да, часть сражений сеть "вымикрила", но большая часть - результат более качественных стратегических решений. Посмотрите ролики. Я немного играл в старкрафт, могу точно сказать, что там у сети было несколько неожиданно красивых решений - например, грамотная атака по воздуху и адептами по земле. Он обманул и прижал человека.
При этом именно человек пользовался стандартными, стереотипными решениями типа стенок. Комп вообще не использовал стенки, и ни разу от этого не пострадал. Это нубство, которое стало мастерством.
Нет же. Она видит карту так, как человек не способен и кликает в разных местах многими мышками, которыми управляет сотней рук. Нет тут вообще никакого "интеллекта" от слова совсем
Вот чтобы рассказов про "сотни рук" не было, и приведены АРМ: люди кликают больше и быстрее, но их это не спасает.
Человек, конечно, способен так видеть карту - см. минивью, ддя того он и сделан. Просто нейронов в зрительной коре маловато для надёжной и полной оценки обстановки человеком, если ему на миникарту изображение затолкать как есть, а не спецом загрубленное. Это не чит, это недостаток нашей вычмощи в нашей зрительной коре... она, все-таки, под другие задачи затачивалась.
Ну и главное - запустили же и "точно так же". То, что человек ПОКА выиграл - вопрос незначительного числа дополнительных тренировок.
Ну и прочее - мол, одна раса, мол, против одной расы... это уж совсем не принципиальные вопросы. Поосто больше сеть и больше время обучения, только и всего. Качественно задача решена. Крыть тут нечем.
Один вопрос, вы в старик вообще когда нибудь играли? =) Мне кажется нет.
Понимаете, мне, чтобы контролить _одновременно_ всего в ДВУХ местах, надо ДВЕ мыши, два монитора и два человека.
Я не могу ФИЗИЧЕСКИ управлять юнитами так. Мне нужно для этого переключаться по миникарте. Это дает задержку на принятие решений. А у него этой задержки НЕТ
Вообще, да.
В последней игре комп контролил юниты имея тот же размер карты, что и у человека.
Это всё совершенно несущественный вопрос времени (даже не работы программистов, а просто времени самообучения систем). Понимаете, целью же ДипМайнда не было обязательно победить в турнире лучших игроков (чтобы взять приз, например). Понадобится - победят, но для такой конторы это мелко и бездумно.
Целью было продемонстрировать решение задач, которые ранее считались машиной нерешаемыми. Эта цель полностью достигнута, КМК. Можно обсуждать, что машина допускала какие-то ошибки или там что она проиграла одну партию игрокам всего-то из сотни (а не из десятки, допустим)... но это обсуждения волнующие только фанатов Старкрафта и ничего, ничего уже не меняющие в широком контексте.
Думает он ещё плоховато - тупо без понимания имитирует (интерполирует) то поведение которое "видел" у людей в предоставленных для обучения реплеях. Игра самого с собой кое-что дала, но это ни чего прорывного... А вот "микроконтроль" - там математически божественный. Вот покадровый разбор этой "сенсации": https://www.youtube.com/watch?v=FFJRd9l6kW4
:о)
Вы же не просите отстрелить у более успешного игрока часть его мозга, хотя использование более совершенного мозга это такой же "чит"?
Умение видеть сразу всю открытую карту это либо суперталант прогеймеров, либо чит, т.к. бац и на тебе рояль в кустах. Просто прикиньте, что такой навык появился у игрока из бронзы просто потому, что чувак выпил волшебную таблетку, а не проводил долгие часы, дни и месяцы за игрой. Вот я о чем.
Смотри на миникарту. Там оно всё и есть - тоже что и видит компьютер, но в меньшем масштабе, зато раскрашено для заметности. Ведь зрение и восприятие человека, фокус внимания - ограничены, а у машины беспредельны.
"Это и есть чит." - это не чит. Просто представьте, что играете с противником у которого 100 глаз и 100 рук, и интерфейс старика-2 даёт ему пользоваться своими глазами и руками. Да, мы разные, машина и человек. Если машину принципиально ограничить нашими человеческими возможностями - то ей просто придётся учится дольше. Самое ведь тут главное - что учится она играя сама с собой и для этого надо времени - исчислимого неделями. А человеку что бы стать про-игроком, сколько надо?
Есть еще такая штука, как талант. Пусть эта прога с корейцами поиграет, вот там будет интересно.
И да, чит как раз в том, что машина за две недели обучается тому, чему прогеймер обучается годами.
О чём речь, пройдут годы и поиграет. А может она и с Йоона Serral Сотала поиграет. По игре которую показывает машина - видно что уже принципиальных проблем нет. Есть проблемы количественные. Ей нужны мощности, и время и она научится.
Главное, что программа живёт в своей среде, а для человека это другой мир. Ему нужен монитор, клавиатура и вот это всё. Программе не нужно ничего, она плоть от плоти игры.
Любая рыба выиграет у человека в воде. Просто ей надо немного подождать)
Человек создал этот мир, но живут в нём программы.
Закончится тем, что машины будут играть с машинами. А люди останутся играть с людьми. А на чемпионаты машин будут изредка посматривать, ради развлечения.
Этим не закончится. Но с этого началось.
Ну, не знаю. В современных шахматах много ли матчей/чемпионатов человек-машина?
Нет, так как бесполезно. Но тут про SCII. А чемпионаты по SCII - это шоу.
Это понятно. Пока непонятно, получится ли шоу из матча человек-машина. Или Stats vs Serral по адреналину все же круче будет.
Страницы