Evolving Image Compositions for Feature Representation Learning

Paola Cascante-Bonilla; Arshdeep Sekhon; Yanjun Qi; Vicente Ordonez

← 論文一覧に戻る

publication

Evolving Image Compositions for Feature Representation Learning

Paola Cascante-Bonilla, Arshdeep Sekhon, Yanjun Qi, Vicente Ordonez.

British Machine Vision Conference. BMVC 2021. November 2021.

論文 project page pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

University of VirginiaとRice Universityの研究者らは、人工的に構成したハイブリッド画像で学習させることにより、画像認識ニューラルネットワークがより良く学習できるよう支援するPatchMixと呼ばれるデータ拡張技術を開発しました。中心的な問題は、視覚認識のための深層学習モデルが学習データに過適合しやすいことです。MixupやCutMixといった既存手法はこれに対抗するためにすでに画像のペアを混ぜ合わせていますが、それらの画像を組み合わせる柔軟性には限界があります。PatchMixは、2つの画像を同じサイズのパッチからなるグリッドに切り分け、バイナリマスクに従ってそれらの間でパッチを入れ替え、その結果生成された合成画像に各ソースから何枚のパッチが来たかに比例した混合ラベルを割り当てることで、この問題に対処します。研究チームはまた、画像全体だけでなく個々のパッチがどのクラスに属するかを正しく識別するようネットワークを学習させる副次的な損失関数を加え、これによってモデルがより局所的に意識した表現を構築せざるをえないようにしました。さらに踏み込んで、研究者らは遺伝的探索アルゴリズムを用いて、どの画像カテゴリのペアを混ぜ合わせるのが最も有用か、そしてどのグリッドパターンが最も難しく、それゆえ最も有益な学習サンプルを生み出すかを、候補となる各構成についてモデルを一から再学習する必要なしに自動的に発見しました。標準ベンチマークでテストしたところ、PatchMixで学習したResNet-50モデルはCIFAR-10、CIFAR-100、Tiny ImageNet、ImageNetでベースラインモデルを上回り、物体検出、シーン認識、画像キャプショニングを含むタスクにわたってより強い転移学習性能を示しました。これは、この手法が競合するアプローチよりも汎用的な視覚特徴を生み出すことを示唆しています。

要旨

視覚認識のための畳み込みニューラルネットワークは、大量の学習サンプルを必要とし、通常はデータ拡張から恩恵を受けます。本論文では、画像のペアからパッチをグリッド状のパターンで組み合わせて新しいサンプルを作成するデータ拡張手法であるPatchMixを提案します。これらの新しいサンプルには、各画像から借用したパッチの数に比例したラベルスコアが割り当てられます。次に、パッチレベルと画像レベルの両方で良い表現を正則化し促進するために、パッチレベルの追加損失の一式を加えます。PatchMixを用いてImageNetで学習したResNet-50モデルは、幅広いベンチマークにわたって優れた転移学習能力を示します。PatchMixは混合のためにランダムなペアリングとランダムなグリッド状のパターンに頼ることもできますが、我々は、最適なグリッド状のパターンと画像ペアリングを共同で発見するための指針となる戦略として進化的探索を探求します。この目的のために、我々は、考えられる各選択肢を評価するためにモデルを再学習する必要を回避するフィットネス関数を考案します。このようにして、PatchMixはCIFAR-10（+1.91）、CIFAR-100（+5.31）、Tiny Imagenet（+3.52）、ImageNet（+1.16）においてベースモデルを上回ります。

詳細

コメント: Accepted to BMVC 2021. Camera-Ready version. Project page: https://paolacascante.com/patchmix/index.html

引用

@inproceedings{cascantebonilla2021evolving,
  title = {Evolving Image Compositions for Feature Representation Learning},
  author = {Cascante-Bonilla, Paola and Sekhon, Arshdeep and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {British Machine Vision Conference. BMVC 2021},
  url = {https://arxiv.org/abs/2106.09011},
}