Monday, June 28, 2021 10:50 AM
ユーチューブ視聴で動画内容を学習する人工知能
ワシントン大学(UoW)のポール・アレン・スクール・オブ・コンピュータ科学&工学(Paul G. Allen School of Computer Science & Engineering)の研究者らは、ユーチューブ(YouTube)の動画を加工せずに視聴することで学習する人工知能モデルを開発した。
ベンチャービート誌によると、この人工知能モデルは正式には「マルチモーダル・ニューラル・スクリプト・ノウレッジ・モデルズ(Multimodal Neural Script Knowledge Models)」、または「メルロー(Merlot)」という愛称で呼ばれている。
人間の知能は、ものごとを文脈に応じて理解する能力にすぐれているが、人工知能は現時点ではその点に弱みがある。たとえば、人間は、「あなたを愛している人がこんなにたくさんいますよ」というメッセージとともに不毛な砂漠の映像を見せられると、それが皮肉であることがわかる。しかし人工知能は、文脈で暗示されたメッセージを解釈できない。
この種の「スクリプト・ノウレッジ(script knowledge)」を機械に教えることの難しさの一つは、必要な情報の量だ。人間はたった1枚の写真からでも、非常に大量の情報を解釈できる。たとえば、レストランで複数の人が食事をしている写真を1枚見た場合、それらの人々どのような理由でレストランに行くことにし、どこかで落ち合ってレストランに向かい、何らかの理由で着席配置を取ったかもしれないことを考えることができる。
ワシントン大学の研究者らは、そういった概念を吸収できるモデルをつくることを目指している。研究班はそのために、ユーチューブ動画を発話の文字情報と一緒に視聴させることでメルローを学習させた。動画には、ラベルやカテゴリーといった構造化の加工をせず、基本的に動画をありのままに見せる手法で訓練された。
研究班は、これまでに600万件のデータセットを使って、画像の個別のフレームを文字情報が表現している文脈に合致させた。データセットには、ハウツーの説明動画や日常的な出来事の動画ブログ、また「科学」や「住宅改修」といった人気主題についてユーチューブが自動的に提案してくるコンテントが含まれた。
そういった学習を行ったうえで定性的なテストと定量的なテストを実施したところ、メルローは、日常的な出来事や状況を理解する力が高いことが示された。動画で伝えられている出来事の順序を崩して見せても、そのフレームを並べ替えて文字情報と合致させ、つながりのある映像にすることができた。
ただ、研究者らは、この手法でのみ人工知能を学習させることには限界があると報告している。データセットに好ましくない偏見があれば、メルローはそれを示すようになる可能性がある。たとえば、ニュース報道のコンテントだけでメルローを学習させれば、人種差別や男女差別の性質を帯びる可能性がある。ほとんどの国では、ユーチューブで人気を博しているコンテント作者のほとんどが男性だ。したがって、男性の尺度や価値観を反映するモデルになるかもしれない、と研究班は説明した。
https://venturebeat.com/2021/06/11/this-ai-system-learned-to-understand-videos-by-watching-youtube/