По определенным параметрам «Стратего» игра более сложная для освоения искусственным интеллектом, чем го или покер. Два игрока размещают на поле по 40 фишек, имеющих разный ранг и свойства, при этом противник может догадаться о том, какая именно фишка ему противостоит, только по косвенным признакам. Задача – захват вражеского флага.
Дерево игры «Стратего» - граф всех возможных путей развития – равен 10 состояниям в 535 степени. У го, например, 10 в 360 степени. Что касается неполноты информации, то и тут «Стратего» сложнее: у игры 10 в 66 степени возможных положений фишек, тогда как в техасском холдеме для двух человек – только 10 в шестой.DeepNash, названный в честь математика Джона Нэша, автора «равновесия Нэша» из теории игр, объединил алгоритм обучения с подкреплением с глубокой нейросетью, https://www.nature.com/articles/d41586-022-04246-7 Nature. Первый компонент ищет наилучшую стратегию для каждого состояния игры. Чтобы научиться этому, алгоритм сыграл 5,5 млрд партий. Результаты партий приводили к корректировкам внутри нейросети.
Авторы подчеркивают, что в отличие от AlphaGo и прочих, более ранних систем, созданных DeepMind для игр, DeepNash не осуществляет поиск через дерево игры, чтобы оптимизировать себя.
В апреле в течение двух недель DeepNash провел серию матчей против людей на онлайн-платформе Gravon. После 50 партий ИИ поднялся на третье место среди всех игроков с 2002 года.
«Наша работа показывает, что такие сложные игры, как «Стратего», включающие неполную информацию, не требуют для решения методов поиска, - сказал Карл Тьюилс, один из специалистов DeepMind.
– Это действительно большой шаг вперед в ИИ».В начале осени команда DeepMind https://hightech.plus/2022/09/05/ii-deepmind-nauchilsya-igra... виртуальных гуманоидов работать сообща, играя в футбол. При этом правил игры машине никто не объяснял, она до всего доходила сама, через наблюдение и повторение. Постепенно под руководством алгоритмов неуклюжие человечки с реалистичными пропорциями и массой превратились в профессионалов своего дела. На то, чтобы приобрести базовые навыки игры в футбол у ИИ ушло 24 часа реального времени.
Свежие комментарии