Friday, January 27, 2023 11:50 AM

エンコード、オープン・ソースの能動学習ツールキットを無料公開

 ロンドン拠点の機械視認(computer vision)データ・プラットフォーム新興企業エンコード(Encord)は1月26日、機械学習用のデータ品質を向上させるツールキット「エンコード・アクティブ(Encord Active)」を市場投入した。

 ビジネス・ワイヤーによると、エンコード・アクティブは、完全にオープン・ソースの無料ツールキットで、どんな業界での用途にも対応し、機械学習技術を開発する工学者やデータ科学者らが機械学習に使うデータの品質を向上させられるよう支援する。

 自動運転や疾病診断といった用途に使われる先進人工知能モデル群では、概念実証で成功を収めたモデルでも実用環境では正確かつ一貫性のある結果を出せないことが起こっている。その「本番ギャップ(production gap)」と呼ばれる現象が、広範での人工知能普及にとって足かせになっている、と同社は説明している。

 エンコードのツールキットは、そのニーズに応えるべく、データ品質やレイベル付け、モデル性能の調査に対して新しい手法で取り組むものだ。データとレイベルのエラーはモデル性能に大きく影響するため、それを継続的に評価して、学習に使うデータセットを向上させることが欠かせない。エンコードのツールは、高価値のデータを優先して使うことで、モデル性能を高める。

 機械学習における能動学習(アクティブ・ラーニング)は、性能向上に役立つデータをモデルが要求する型の機械学習の過程であり、研究者や会社らのあいだで理論として注目されるようになってきた。しかし、小規模の会社では有用な能動学習の技法を導入できていない。

 エンコード・アクティブは、大小さまざまの規模の会社らがそれを理論から実践へと移せるようにする。それに際して、データやレイベルのうえに指標の計算値を追加する「品質指標(quality metrics)」という新しい方法を用いている。

 能動学習を実践するにはこれまで、工学者たちが独自のツールを構築して、独自の品質指標を作成する必要があった。エンコード・アクティブはその作業にかかる時間と手間を省くことができる。

 エンコード・アクティブはギットハブ(GitHub)で提供されている。

https://www.businesswire.com/news/home/20230126005519/en/Encord-Launches-Open-Source-Active-Learning-Toolkit-to-Speed-Up-Real-World-Applications-of-Computer-Vision