Нейросеть AlphaStar одолела профессиональных игроков в StarCraft II

Аватар пользователя Tima_bes

Программа AlphaStar, разработанная DeepMind, смогла обыграть двух профессиональных игроков в стратегию в реальном времени StarCraft II. Каждого из игроков-людей нейросеть победила в пяти матчах. Описание работы программы доступно на сайте DeepMind, а посмотреть на AlphaStar в деле можно на YouTube.

Для обеих частей StarCraft уже достаточно давно разрабатываются боты и даже проводятся соревнования подобных программ, однако до сих пор таким алгоритмам не удавалось победить человека. Дело в том, что несмотря на победу программы AlphaGo в настольной игре го (которая долгое время считалось слишком сложной для машин) со стратегией в реальном времени все обстоит иначе — это игра с закрытой информацией, в которой нужно решать большое количество задач одновременно. Компания Blizzard объявила о создании открытого API для StarCraft II еще летом 2017 года, но с тех пор заметного прогресса почти не было — даже нейросеть, разработанная DeepMind, долгое время не могла показать блестящего результата и проигрывала легкому уровню сложности встроенных алгоритмов.

Теперь компания DeepMind (входит в состав холдинга Alphabet) продемонстрировала, что их новая программа AlphaStar способна обыграть профессиональных игроков. При создании AlphaStar использовался метод глубокого обучения с подкреплением, а также обучение с учителем, в качестве тренировочного датасета разработчики использовали предоставленные компанией Blizzard анонимизированные записи игр настоящих людей. Обученная на этих играх нейросеть научилась побеждать встроенные алгоритмы StarCraft II на самой высокой сложности в 95 процентах случаев, после чего специалисты DeepMind заставили программу играть с самой собой. Разработчики отмечают, что сначала в «лиге AlphaStar» доминировал раш — тактика быстрой победы путем строительства большого количества сравнительно дешевых юнитов. Однако затем нейросеть научилась бороться с такими атаками и начала делать упор в том числе и на экономическое развитие. Всего на «лигу AlphaStar» ушло 14 дней игры агентов друг с другом, что эквивалентно 200 годам игры в StarCraft II.

 

Сначала нейросеть выиграла пять матчей из пяти против TLO (Дарио Вунш, Германия), а затем другая версия нейросети победила пять раз подряд игрока MaNa (Гжегож Коминч, Польша). Оба профессионала входят в сотню сильнейших игроков в StarCraft II. Интересно, что средний APM (количество действий в минуту) нейросети оказался значительно меньше, чем у ее противников.

8c4e55dfb73064e1b4eaad4c84e5f343.png

 

Стоит отметить что все же небольшое преимущество у AlphaStar было — несмотря на то, что туман войны закрывал карту для нейросети так же, как и для человека, программа получала для обработки не частичное изображение известной области (условный экран), а видела сразу все, что позволяет увидеть игра. Благодаря этому нейросети не приходилось постоянно переключаться между разными зонами карты для контроля за происходящим. Когда же для еще одного демонстрационного матча с MaNa разработчики заставили AlphaStar играть с обычным ограничением масштаба видимой области, то нейросеть проиграла человеку. Правда, в DeepMind отмечают, что самостоятельно двигающая камеру версия программы обучалась в «лиге AlphaStar» всего семь дней.

Первая часть StarCraft тоже представляет собой сложную задачу даже для методов глубокого обучения. Так, в октябре 2017 года своего бота для этой игры представила компания Facebook, и он оказался слабее программ, созданных программистами-любителями. Специалистам из Alibaba Group и Университетского колледжа Лондона удалось научить свою программу неплохому уровню микроконтроля юнитов при ведении боя, но на полноценную игру их разработка все еще не способна.

Автор: Николай Воронцов

 

Авторство: 
Копия чужих материалов
Комментарий автора: 

 Ещё одна знаковая дата в истории машинного обучения.  Без преувеличения 

Комментарии

Аватар пользователя Gray
Gray(9 лет 10 месяцев)

Вы уверены что не отстали от новостей?)

Как раз публичные патенты появляются:

https://habr.com/ru/company/it-grad/blog/426737/

Но, имхо - для Т-800 хватит и хорошо отмасштабированного вот такого.

https://en.wikichip.org/wiki/intel/loihi

Нейроморфные процессоры, пусть даже на микроядерной структуре - как раз уже появляются в железе, и для практических задач в рамках Т-800 - их вполне хватит.

А с полноценным нейроном и энергонизовисимой памятью на уровне единичного элемента - это заявки на скайнет и безусловное превосходство над человеком по всем параметрам)

Аватар пользователя Alexandr_A
Alexandr_A(11 лет 11 месяцев)

Так они сделаны на обычных ключевых транзисторах, а я почему-то думал, что они хоть и на кремнии, но внутри имеют что-то особенное. Тупиковая ветвь ИМХО.

 

Аватар пользователя Alexandr_A
Alexandr_A(11 лет 11 месяцев)

В каментах на хабре пишут

Но вообще естественно весьма специализированная и ограниченная архитектура. Одно из самых серьезных ограничений — синапсы (связи) и спайки (бегающие пакеты/сигналы) вообще в этом процессоре однобитные, есть/нет связь, пришел сигнал да/нет.

В реальном синапсе сигнал аналоговый, имеющий очевидно, определенную ширину полосы, а они заменили его на однобитный да/нет. И при этом имеют наглость называть это поделие аналогом человеческого. Ясен пень, указанное количество якобы нейронов и синапсов надо делить на два порядка и тогда все становится на места. Ну, то-есть понятно почему ИИ такой тупой.

 

 

Аватар пользователя Gray
Gray(9 лет 10 месяцев)

Вы или ошибочно используете термин, или вас куда-то не туда занесло. Никакого широкополосного сигнала и тем более частотного или какого-либо ещё модулирования на биологическом уровне нет.

Да, в живом нейроне сигнал аналоговый (одна численная величина - сила сигнала), но и в патенте спайк описан как пакет данных, в частном случае - однобитный. Ценой замедления быстродействия например раз в 5 и прописывания простейшего сумматора в логике нейрона - можно получить 32 градации сигнала, что будет точнее чем биологический нейрон. 

Ещё раз - снижаться будет частота работы сети (которая и так на порядки превосходит человеческую), а никак не количество нейронов и синапсов. 

Ну, то-есть понятно почему ИИ такой тупой.

А здесь - вообще чушь. Вы не знаете ни одной системы обученной на этом процессоре, поэтому оцениваете исключительно свои фантазии.

Аватар пользователя Alexandr_A
Alexandr_A(11 лет 11 месяцев)

 Вы или ошибочно используете термин

Да, в живом нейроне сигнал аналоговый (одна численная величина - сила сигнала)

О теминах:

 

 

но и в патенте спайк описан как пакет данных, в частном случае - однобитный. Ценой замедления быстродействия например раз в 5 и прописывания простейшего сумматора в логике нейрона - можно получить 32 градации сигнала, что будет точнее чем биологический нейрон. 

 Ну если это так, то в принципе вы правы, но я сомневаюсь что 32 градации будет достаточно. Пруфы где?

А здесь - вообще чушь. Вы не знаете ни одной системы обученной на этом процессоре, поэтому оцениваете исключительно свои фантазии.

Это вы сейчас чушь написали. Этой статьи об АльфаСтар достаточно, чтобы оценить возможности такого ИИ. Там еще пахать и пахать, прежде чем такому ИИ доверят что-то вроде управления боевым самолетом перехватчиком.

Аватар пользователя Gray
Gray(9 лет 10 месяцев)

По терминам - вы привели цитату, подтверждающую мои слова, и? Где здесь про "определенную ширину полосы"?

но я сомневаюсь что 32 градации будет достаточно

Уменьшаете частоту сети в 10 раз вместо 5 и получаете 2^10 градаций. Мало? Замедляете ещё. Это степенная зависимость, а частоту можно замедлять и дальше.

Этой статьи об АльфаСтар достаточно, чтобы оценить возможности такого ИИ

Альфа-стар не имеет вообще никакого отношения к этой архитектуре и считается на специализирванных FGPU/числодробилках.

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

ТруНорд - классический набор из 100500 классических процессоров. Транспьютер, модный в 1980-е. Это не путь вперед.

Лойхи - да, это интересно... но 130000 нейронов - это очень, очень далеко от Т-800. Даже на автопилот для машины несколько десятков штук потребуется, а уж на эмуляцию хоть сколь-нить существенной части 100 000 000 000 нейронов человека нужны сотни тысяч таких чипов. Чипы должны стать в тысячи раз мощнее и в тысячи раз дешевле.

Это правильный старт, но лишь самое начало пути.

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя Gray
Gray(9 лет 10 месяцев)

Штука в том что нейропроцессор нужен только для динамического обучения. Исполнять уже обученную сетку можно не используя его вообще. Вопрос в алгоритме или нейросетке верхнего уровня, которая бы обрабатывала полученный опыт, последовательно дообучая существующие сетки на нейроморфном железе. При том это можно делать как в реальном времени (тк частота обработки на порядки выше человеческой) так и после, тк ничего не мешает запоминать опыт и обрабатывать его потом.

*Да и т-800 ничего особого не показывал, в основном работа с заложенными базами, самообучения там был мизер) 

Аватар пользователя Nordicx86
Nordicx86(12 лет 3 месяца)

Видео с адекватным русским комментатором:
 

 

Комментарий администрации:  
*** Криптобес ***
Аватар пользователя Lumiminc
Lumiminc(8 лет 11 месяцев)

Пропиарю  часть опубликованного мной  исследования (в тексте моего поста этого нет, доступно по ссылкам на источник)

Глубокое обучение. Об изъянах нейросетевого интеллекта:

 

 

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

...

Аватар пользователя Dozor-SPb
Dozor-SPb(8 лет 1 месяц)

А кроме как в игрушки играть эти "нейро"сети что то умеют?

Комментарий администрации:  
*** отключен (невмненяемое общение) ***
Аватар пользователя Scahor
Scahor(8 лет 3 месяца)

На бирже уже вовсю спекулируют

Аватар пользователя Nordicx86
Nordicx86(12 лет 3 месяца)

умеют - например Распознавание голоса, Распознавание объектов, анализ предпочтений, комплексный анализ в молекулярной химии.... реальных применений таких сетей Много и они есть практический вкаждом Смартфоне сейчас - и вы скорее всего каждый день ими пользуетесь даже не замечая - от Recaptha до Ok, Google и даже прогноза и пробочная ситуация от яндекс пробок это именно аналитика от нейросети по отрывочным данным. Счас даже  для метеопрогнозы делаются нейросетями.

Комментарий администрации:  
*** Криптобес ***
Аватар пользователя Bzz
Bzz(7 лет 6 месяцев)

Да, после Alpha Zero процесс напрягает все больше и больше.

...Партии новой программы действительно впечатляют, причем не тем, что программа хорошо считает (этим отличались и другие программы), а тем, что она принимает решения похожие на человеческие, чем собственно закрывает огрехи компьютеров в позиционной игре, где у людей оставались еще лазейки в позициях, где понимание было важнее счета...

Продолжат с биржевой торговлей, затем плавно перейдут к политике и войне...

Аватар пользователя kurgan
kurgan(5 лет 7 месяцев)

"Когда же для еще одного демонстрационного матча с MaNa разработчики заставили AlphaStar играть с обычным ограничением масштаба видимой области, то нейросеть проиграла человеку."

 

Иными словами, мы отключили читы и нейросеть слилась. Скучно девочки, мухлеж есть мухлеж.

И потом опять аналог шахмат, слабо партейку в обычного дурачка, и все встанет на свои места.

Аватар пользователя Tima_bes
Tima_bes(5 лет 3 месяца)

Этого не может быть, потому что этого не может быть никогда!) 

От победы в Го до  этого урезанного старкрафта прошло ровно год и месяц.

 

Комментарий администрации:  
*** Отключен (инфомусор) ***
Аватар пользователя kurgan
kurgan(5 лет 7 месяцев)

дурачок, или подкидной, и посмотрим сколько пройдет времени. Есть еще одна задачка но ее приберегу на сладкое.

Аватар пользователя Nordicx86
Nordicx86(12 лет 3 месяца)

посмотрите видео выше - все станет понятнее

Комментарий администрации:  
*** Криптобес ***
Аватар пользователя kurgan
kurgan(5 лет 7 месяцев)

Спасибо посмотрел, посмеялся. Если что, мне немного знакома тема нейросетей, так отдаленно, поэтому и скептицизм со временем только растет.

Аватар пользователя Gray
Gray(9 лет 10 месяцев)

Если вам хоть немного знакома тема нейросетей вы должны понимать что перемещение экрана и прогнозирование точек интереса - это максимум пара дополнительных слоёв сети и пусть даже в десять раз более долгое обучение (особенно при уже наличествующем прогнозировании точек встречи). В примитивном случае - вообще решается непрерывным переключением между точками интереса.

Единственный проигрыш сети - не от "отключения читов", а от явного пойманного бага, из-за недообученности в изменившихся условиях.

Аватар пользователя Хромой Шайтан
Хромой Шайтан(11 лет 10 месяцев)

+ много

сам старкрафтер с 15 летним стажем, вот в точку сказано, отключили читы и она слилась

Если смотреть на реплэи ботов 99% их кликов абсолютно бессмысленные движения, а тащат бой они исключительно за счет искусственно данного им преимущества над человеком. Т.е. читы

Аватар пользователя Maxfps
Maxfps(6 лет 8 месяцев)

И Вам много +++))

Одно время смотрел реплеи Боксера вместо сериалов)

Одна карта, одна раса, туман войны (ну или карта, неважно) - ну нет, это совсем базовый уровень. При таких исходных даже нуб имеет шанс выиграть у профи (КМК).

Аватар пользователя Хромой Шайтан
Хромой Шайтан(11 лет 10 месяцев)

А я до сих пор смотрю))

 

Аватар пользователя Doomtrain
Doomtrain(12 лет 2 месяца)

Мертвая и неактуальная игра.

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

Да уж. Вот когда нейросеть научится играть в футбол, вот тогда...

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

>>несмотря на то, что туман войны закрывал карту для нейросети так же, как и для человека, программа получала для обработки не частичное изображение известной области (условный экран), а видела сразу все, что позволяет увидеть игра

Это и есть чит.

>>Интересно, что средний APM (количество действий в минуту) нейросети оказался значительно меньше, чем у ее противников.

APM не религия и не догма. У меня против ИИ (эксперт) АПМ так себе. Просто я знаю алгоритмы текущего ИИ и кликать как дятел просто нет необходимости.

ЗЫ: Конечно, интересно будет пободаться. Но игру против человека не заменит от слова совсем. 

 

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

Именно поэтому ДипМайндовцы акцентируют внимание на APM: машина не кликает больше, не выигрывает у людей за счёт микроконтроля или чего-то подобного. Она кликает лучше. 

Думает лучше.

Ну, по меньшей мере, лучше вот этих игроков из сотни (но раз из сотни - наверное, это неплохие игроки).

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Поиграем, посмотрим. Между прочим, даже текущий ИИ умеет харасить лучше многих по платину включительно. Делает первым делом баньшу с инвизом и часто на этом ГГ.

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

Это не "текущий ИИ" умеет харасить. Это хорошие игроки умеют харасить, сказали об этом девелоперам, которые и заскриптовали эту тактику (с кучей многих других). Отличие принципиальное: тут последовательность действий нашёл (придумал) всё-таки человек.

А у ДипМайнда - машина.

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя mk2
mk2(8 лет 5 месяцев)

Не думает лучше. Микрит лучше. Это две большие разницы.

Аватар пользователя Хромой Шайтан
Хромой Шайтан(11 лет 10 месяцев)

Вот именно. В раскладе равное/на равное количество юнитов нейросеть со временем будет уделывать человека, как бог черепаху. Он абсолютно точно, по таймингу в миллисекунды будет отводить подбитых и будет точно концентрировать огонь и распределять цели. Параллельно во много потоков. По пикселям отходя и отходя. Тут у манипулятора типа "мышь" и управляющего устройства типа рука/палец никаких шансов.

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

Посмотрите ролики. Они впечатляют.

Сеть почти всегда впереди по экономике и вполе умеет в грамотную стратегию, в зависимости от действий противника. Да, часть сражений сеть "вымикрила", но большая часть - результат более качественных стратегических решений. Посмотрите ролики. Я немного играл в старкрафт, могу точно сказать, что там у сети было несколько неожиданно красивых решений - например, грамотная атака по воздуху и адептами по земле. Он обманул и прижал человека.

При этом именно человек пользовался стандартными, стереотипными решениями типа стенок. Комп вообще не использовал стенки, и ни разу от этого не пострадал. Это нубство, которое стало мастерством.

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя Хромой Шайтан
Хромой Шайтан(11 лет 10 месяцев)

Нет же. Она видит карту так, как человек не способен и кликает в разных местах многими мышками, которыми управляет сотней рук.  Нет тут вообще никакого "интеллекта" от слова совсем

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

Вот чтобы рассказов про "сотни рук" не было, и приведены АРМ: люди кликают больше и быстрее, но их это не спасает.

Человек, конечно, способен так видеть карту - см. минивью, ддя того он и сделан. Просто нейронов в зрительной коре маловато для надёжной и полной оценки обстановки человеком, если ему на миникарту изображение затолкать как есть, а не спецом загрубленное. Это не чит, это недостаток нашей вычмощи в нашей зрительной коре... она, все-таки, под другие задачи затачивалась.

Ну и главное - запустили же и "точно так же". То, что человек ПОКА выиграл - вопрос незначительного числа дополнительных тренировок.

Ну и прочее - мол, одна раса, мол, против одной расы... это уж совсем не принципиальные вопросы. Поосто больше сеть и больше время обучения, только и всего. Качественно задача решена. Крыть тут нечем.

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя Хромой Шайтан
Хромой Шайтан(11 лет 10 месяцев)

Один вопрос, вы в старик вообще когда нибудь играли? =)   Мне кажется нет.

Понимаете, мне, чтобы контролить _одновременно_ всего  в ДВУХ местах, надо ДВЕ мыши, два монитора и  два человека.

Я не могу ФИЗИЧЕСКИ управлять юнитами так. Мне нужно для этого переключаться по миникарте.  Это дает задержку на принятие решений. А у него этой задержки НЕТ

Аватар пользователя Simurg
Simurg(7 лет 3 месяца)

Вообще, да. 

В последней игре комп контролил юниты имея тот же размер карты, что и у человека. 

Это всё совершенно несущественный вопрос времени (даже не работы программистов, а просто времени самообучения систем). Понимаете, целью же ДипМайнда не было обязательно победить в турнире лучших игроков (чтобы взять приз, например). Понадобится - победят, но для такой конторы это мелко и бездумно.

Целью было продемонстрировать решение задач, которые ранее считались машиной нерешаемыми. Эта цель полностью достигнута, КМК. Можно обсуждать, что машина допускала какие-то ошибки или там что она проиграла одну партию игрокам всего-то из сотни (а не из десятки, допустим)... но это обсуждения волнующие только фанатов Старкрафта и ничего, ничего уже не меняющие в широком контексте.

Комментарий администрации:  
*** Уличен в клевете и ложном цитировании, отказ принести извинения - https://aftershock.news/?q=comment/11527284#comment-11527284 ***
Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

Думает он ещё плоховато - тупо без понимания имитирует (интерполирует) то поведение которое "видел" у людей в предоставленных для обучения реплеях. Игра самого с собой кое-что дала, но это ни чего прорывного... А вот "микроконтроль" - там математически божественный. Вот покадровый разбор этой "сенсации": https://www.youtube.com/watch?v=FFJRd9l6kW4

Аватар пользователя Bzz
Bzz(7 лет 6 месяцев)

Это и есть чит.

:о)

Вы же не просите отстрелить у более успешного игрока часть его мозга, хотя использование более совершенного мозга это такой же "чит"?

 

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Умение видеть сразу всю открытую карту это либо суперталант прогеймеров, либо чит, т.к. бац и на тебе рояль в кустах. Просто прикиньте, что такой навык появился у игрока из бронзы просто потому, что чувак выпил волшебную таблетку, а не проводил долгие часы, дни и месяцы за игрой. Вот я о чем.

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

Смотри на миникарту. Там оно всё и есть - тоже что и видит компьютер, но в меньшем масштабе, зато раскрашено для заметности. Ведь зрение и восприятие человека, фокус внимания - ограничены, а у машины беспредельны.

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

"Это и есть чит." - это не чит. Просто представьте, что играете с противником у которого 100 глаз и 100 рук, и интерфейс старика-2 даёт ему пользоваться своими глазами и руками. Да, мы разные, машина и человек. Если машину принципиально ограничить нашими человеческими возможностями - то ей просто придётся учится дольше. Самое ведь тут главное - что учится она играя сама с собой и для этого надо времени - исчислимого неделями. А человеку что бы стать про-игроком, сколько надо?

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Есть еще такая штука, как талант. Пусть эта прога с корейцами поиграет, вот там будет интересно.

И да, чит как раз в том, что машина за две недели обучается тому, чему прогеймер обучается годами.

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

О чём речь, пройдут годы и поиграет. А может она и с Йоона Serral Сотала поиграет. По игре которую показывает машина - видно что уже принципиальных проблем нет. Есть проблемы количественные. Ей нужны мощности, и время и она научится.

Аватар пользователя larkonst
larkonst(7 лет 3 месяца)

Главное, что программа живёт в своей среде, а для человека это другой мир. Ему нужен монитор, клавиатура и вот это всё. Программе не нужно ничего, она плоть от плоти игры. 

Любая рыба выиграет у человека в воде. Просто ей надо немного подождать)

Человек создал этот мир, но живут в нём программы.

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Закончится тем, что машины будут играть с машинами. А люди останутся играть с людьми. А на чемпионаты машин будут изредка посматривать, ради развлечения.

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

Этим не закончится. Но с этого началось.

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Ну, не знаю. В современных шахматах много ли матчей/чемпионатов человек-машина?

Аватар пользователя tokomak
tokomak(12 лет 5 месяцев)

Нет, так как бесполезно. Но тут про SCII. А чемпионаты по SCII - это шоу.

Аватар пользователя valeryma
valeryma(9 лет 6 месяцев)

Это понятно. Пока непонятно, получится ли шоу из матча человек-машина. Или Stats vs Serral по адреналину все же круче будет.

Страницы