Friday, April 17, 2020 9:52 AM

状況変化に応じた意思決定を可能にする人工知能

 グーグル(Google)とカリフォルニア大学バークリー校の研究者らは、過去に実行した行動をとるあいだに次にとるべき行動を判断できる人工知能のモデルを共同開発した。

 ベンチャービート誌によると、グーグル・ブレーン(Google Brain)とグーグルエックス、カリフォルニア大学バークリー校の研究者たちで構成される研究班はこのほど、正式な出版前の研究論文をウェブサイト「Arxiv.org」で公開し、同技術について説明した。

 それによると、既存の人工知能手法の拡張機能といえる同技術は、人間や動物の行動を模倣しながら代理人(たとえばロボット)の行動をモデル化することで、信頼性のより高いシステムを開発できるという考えから着想された。

 人工知能のアルゴリズムは、ビデオゲームや作業自動化で成功を収めてきた。アルゴリズムはこれまでのところ、「観察、思考、行動」のパターンを踏襲し、環境が変化しないことを前提にしている。模擬化環境ではそれで問題ないが、現実の世界では、代理人が観察したことを処理して次の行動を計画するあいだにも環境が変化していく、と研究者らは論じている。

 合同研究班はそこで、現行の環境に対応するための枠組みの開発を目指した。提案されたソリューションは、標準的な強化学習の手法を活用したものだ。可能性として考えられる複数の筋書き(状態または状況)を代理人が受け取り、指針に従ってとる可能性のある行動を選択すると、環境が次の状態を返す。その周期を通じて、それぞれの状態から期待される結果をできるかぎり学習していくというしくみだ。

 同技術はさらに、過去の行動に加え、行動選択時間と「ベクトル・トゥ・ゴー(vector-to-go=VTG)」という二つの要因を使い、現在の知識をカプセル化する。VTGとは、環境が測定された瞬間にとられたであろう最後の行動と定義される。その結果、現在の環境には、最後の行動がとられたあとの状態が反映される。

 研究者らは、容器に入ったさまざまの物体を機械腕でつかむ実験を行って、その枠組みが既存のモデルと同等の成功率を達成しながら、反応時間を49%短縮できることを確認した。

 「この手法は、環境を止めてから行動を計算することができない流動的な状況下でロボットの制御を可能にするかもしれない」と、研究論文の著者らは述べている。

https://venturebeat.com/2020/04/15/googles-ai-enables-robots-to-make-decisions-on-the-fly/