GPW-07第一報: ボナンザ学習とUCTが話題の中心に

以前お知らせしたゲームプログラミングワークショップ2007(GPW-07)に行ってまいりました。とりあえず第一報は、GPW杯コンピュータ将棋大会2007大槻将棋が強豪にことごとく競り勝ち(唯一、全対戦相手が勝ち越し者)全勝優勝。おめでとうございます。

ことしのGPWは、Bonanza methodUCTが車の両輪でした。Bonanza methodとは、GPW-06でも発表された、おなじみのボナンザを強くした学習アルゴリズムです。GPW-07の最初のセッションで保木さん自身が(なりゆきで)命名しました。したがいまして今後は「他の選択肢との比較優位を学習し、評価の計算にminimax探索の結果を用い、報酬の計算に最急降下法を用いる強化学習法(TDLeafの親子ノード比較を兄弟ノード比較に替えたもの)」を、ボナンザ学習法などと呼ぶようにしましょう。詳細については、保木さんのGPW-06での論文が公開されていますのでお読みください。

またUCTは、コンピュータ囲碁を劇的に強くしたアルゴリズム。第12回コンピュータオリンピック(Computer Olympiad)囲碁の部にてMoGoと世界チャンピオンの座を争ったCrazy Stoneの開発者、Remi Coulomさんによる招待講演でのUCTの解説がGPW-07の目玉でした。GPW-07に来られなかった方にも論文が公開されていますので、ぜひご一読を。

Bonanza methodUCT、2005年~2006年にそれぞれコンピュータ将棋とコンピュータ囲碁に急激な進化をもたらしたこの2つの成果に関連する研究が、GPW-07の多数を占めていました。GPW杯優勝の大槻将棋Bonanza methodを採用しており、またCoulomさんのCrazy StoneGPW杯9路盤コンピュータ囲碁大会に出場、貫禄の優勝を果たしました。

2つの大きなテーマもあって、GPW-07は恐らく史上最多の参加者が集いました。2つのテーマは、ゲームプログラミングのさらなる進化の土台たり続けることが期待されるだけでなく、もっと広範囲のコンピュータサイエンスにも貢献してほしいところです。

かつてないほどホットだったGPW-07の3日間は、実に密度の濃い内容でした。すべてを1エントリーで書ききることはできないので、Bonanza methodの詳しいお話を含め、今後少しずつ当ブログにて触れてまいります。というわけでGPW杯のさなかに起きたアクシデントのお話は後回し。将棋や囲碁などの対戦ゲームだけでなく、社会性に富んだテーマが多く扱われたのも今回の特徴で、有名なR.アクセルロッドTIT FOR TAT(しっぺ返し戦略)オートマトンで挑んだ研究は非常に考えさせられるものでした。ほか、アタック25の3.8%の場面ではたとえ問題がわかっても答えない方がよい、なんてお話も。ここを読んで初めて興味を持たれた方は、来年のGPWのアナウンスをお待ちください。

2 Comments »

  1. GPW杯将棋部門は大槻将棋が全勝優勝…

    ゲームプログラミングワークショップ(GPW)2007第一報にてお伝えいたしましたとおり、GPW杯コンピュータ将棋大会2007は大槻将棋が全勝優勝の快挙を達成しました。こ (more…)

  2. モンテカルロ将棋の試み…

    ブログをはじめとするコンピュータ将棋のWebサイトにて、モンテカルロアルゴリズムで先読みをする将棋プログラムを開発した、もしくは将来その予定、という報告が増えてきました (more…)

RSS feed for comments on this post · TrackBack URI

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です