ストラテゴ(Stratego)はAIが未だに完全に習得しきれていない数少ないボードゲームの1つであるが、「DeepNash」と呼ばれる新開発AIエージェントが、人間の専門家レベルで、このボードゲームを試合することを学習したと専門家らが報告している。これは「異常な結果であり、現行技術を用いて可能になり得るとはストラテゴのコミュニティは確信していなかった」と著者らは述べている。多年にわたり、ストラテゴというボードゲームは、比較的時間をかけて熟考し、論理的な決定を順次に下す人間の能力を試すものであり、AI研究の新たな活動領域の一つであった。ストラテゴは、(ゲームのある側面が対戦相手から隠されている)「不完全」情報ゲームであり、他のより研究された不完全情報ゲームであるノーリミットテキサスホールデムポーカーより多くの可能な状態があることを含め、その構造の多くの複雑な側面のため、AI研究者たちに対する主要な挑戦である。現在、不完全情報下の探索手法を用いて、ストラテゴを習得することは不可能である。今回、Julien Perolatらは画期的な方法を導入して、AIがこのボードゲームを学習することを可能にした。この新たな方法によって、DeepNashと呼ばれるボットが生み出され、このボットはこのゲームのもっとも複雑なバリエーションであるストラテゴクラシックにおいて、人間の熟達者レベルの戦績を達成した。DeepNashの中核には強化学習アルゴリズム「R-NaD」がある。DeepNashを作り上げるために、PerolatとそのチームはR-NaDをディープニューラルネットワークのアーキテクチャと組み合わせて、高い競争力のレベルにおいて競技する戦略を学習させた。DeepNashは種々の最先端ストラテゴボットや人間の熟達した競技者たちと対戦して試された。すべてのボットに勝利するとともに、インターネットボードゲーム用プラットフォーム及び最大のストラテゴ用オンラインプラットフォームであるGravonにおいて、人間のストラテゴ熟練競技者と高い競争レベルの試合を行った。特に、過去のボードゲームにおいて、AIの節目となる成果にとって大きな要素であった探索方法を何ら展開することなく、今回の成績が達成されたとこれらの著者らは述べている。
Journal
Science
Article Title
Mastering the game of Stratego with model-free multiagent reinforcement learning
Article Publication Date
2-Dec-2022