General Multi-label Image Classification with Transformers
publication

General Multi-label Image Classification with Transformers

Jack Lanchantin, Tianlu Wang, Vicente Ordonez, Yanjun Qi.
Conference on Computer Vision and Pattern Recognition CVPR 2021.
研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表(記者)スタイルの文体で書かれています。

バージニア大学の研究者らは、1枚の画像内で複数の物体や概念を同時に識別するコンピュータの能力を向上させる新しい深層学習システム、Classification Transformer(C-Tran)を開発した。このタスクはマルチラベル画像分類として知られている。各ラベルの予測をほぼ独立して扱うか、ラベル間の関係を捉えるためにあらかじめ定義された知識グラフに依存する既存の手法の多くとは異なり、C-Tranは画像特徴とラベル情報の両方をTransformerエンコーダに同時に入力する。これは自然言語処理における近年の進歩を牽引してきたのと同種のアーキテクチャである。重要な革新は、Label Mask Trainingと呼ばれる訓練手順であり、モデルは他のラベルに関する部分的な知識をもとにランダムに隠されたラベルを予測することを学習する。これはBERTのような言語モデルの訓練に用いられる穴埋め問題によく似ている。このアプローチにより、システムは手作りの規則を必要とせずに、例えばフォークとナイフが一緒に現れる傾向があるといった、ラベル同士の関係を理解できるようになる。標準的な分類に加えて、C-Tranは推論時に部分的なラベル情報を受け取ることもでき、ユーザーは特定のラベルが確実に存在する、または存在しないとモデルに伝えることで、残りの未知のラベルについてより正確な予測を得られる。このシステムはMicrosoft COCOやVisual Genomeを含むベンチマークデータセットで最先端の結果を達成し、さらに4つのデータセットで部分的に既知または補足的なラベルを用いてテストした際にも競合手法を上回った。実用的な意義は、現実世界の画像が位置タグやキャプションといった不完全あるいは文脈的なメタデータを伴うことが多いという点にあり、C-Tranはそうした部分的な証拠を単一の統一フレームワーク内で柔軟に活用できるように設計された初のモデルである。

要旨

マルチラベル画像分類とは、画像に存在する物体、属性、その他のエンティティに対応するラベルの集合を予測するタスクである。本研究では、Transformerを活用して視覚的特徴とラベルの間の複雑な依存関係を捉える、マルチラベル画像分類のための汎用フレームワークであるClassification Transformer(C-Tran)を提案する。本手法は、マスクされたラベルの入力集合と畳み込みニューラルネットワークから得られる視覚的特徴を与えられたうえで、目標ラベルの集合を予測するように訓練されたTransformerエンコーダから構成される。本手法の重要な要素は、訓練中のラベルの状態を陽性、陰性、未知として表現する三値符号化方式を用いたラベルマスク訓練目的関数である。本モデルは、COCOやVisual Genomeといった困難なデータセットにおいて最先端の性能を示す。さらに、本モデルは訓練中にラベルの不確実性を明示的に表現するため、推論時に部分的または追加のラベルアノテーションが付与された画像に対して改善された結果を生成できる点で、より汎用的である。COCO、Visual Genome、News500、CUBの各画像データセットにおいて、この追加機能を実証する。

詳細

コメント
13 pages, 7 figures

引用

@inproceedings{lanchantin2021general,
  title = {General Multi-label Image Classification with Transformers},
  author = {Lanchantin, Jack and Wang, Tianlu and Ordonez, Vicente and Qi, Yanjun},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2011.14027},
}