人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。
DeepMindが開発した人工知能のAlphaGoは世界最強の棋士に勝利し、その強さは2019年には敗北したイ・セドル棋士が「AIを負かすことはできない」と引退を発表するほどでした。
囲碁AI「AlphaGo」に敗北した世界チャンピオンが「AIを負かすことはできない」と棋士を引退 - GIGAZINE
囲碁の世界では圧倒的な強さを発揮したAlphaGoですが、「不確実性の高い問題」には対処できないとして、ルールがはっきりとしていない現実問題の対処には向かないとされてきました。
DeepMindの新たに発表した「MuZero」は、このようなAlphaGoの課題を解決する新しいアプローチが取られているのが特徴です。以下はAlphaGoやその新バージョンであるAlphaGo Zero、AlphaZero、そしてMuZeroの違いを表した図。左側の緑色の部分がプレイできるゲームを、右側があらかじめ学習させておく知識を示しています。AlphaGoが「囲碁」のみプレイし、「人間のデータ」「囲碁の知識」「囲碁のルール」をあらかじめ教えられる必要があるのに対し、MuZeroは囲碁・チェス・将棋・Atariについて、事前の学習なく自己学習で最適解を導きだせるようになっています。
MuZeroの開発でAtariが利用されたのは「プレイヤーが洗練された戦略を立てる必要があるタスクが豊富で、ゲームスコアという単純な進行指標を提供するため」だと研究チームは説明しています。MuZeroの目標は特定の問題解決のためのトレーニングを受けるだけでなく、問題について「考える」ようにAIをトレーニングすることだそうです。
具体的にいうと、MuZeroは学習済みモデルを使用せずに以下3つの要素をモデル化します。
・値:現在のポジションはどれくらい良いか
・ポリシー:いずれのアクションが最善か
・報酬:最後のアクションがどれぐらい優れているか
MuZeroは「特定のアクションを取ったり計画したときに何が起こるか」ということを、この3つの要素を使ってニューラルネットワークで学習・理解していきます。DeepMindはMuZero以前にもAtariをプレイする人工知能を開発してきましたが、MuZeroはそのいずれよりもパフォーマンスが高く、囲碁・チェス・将棋に関してはAlphaZeroのパフォーマンスに匹敵するとのこと。
「結局のところ、『傘が乾いた状態に保つ方法』を知ることが、空中の雨の水滴パターンをモデル化するよりも重要なのです」と研究チームは述べており、今回の研究結果が、より問題解決スキルに優れたAI開発の一歩になるとみられています。
2020-12-23 19:37:15