プレスリリース要約
バージニア大学とCyberAgentの研究者らは、写真に関する一部の情報があらかじめ既知である場合に、既存の画像認識ニューラルネットワークがより良い予測を行えるようにする技術を開発した。feedback-propと呼ばれるこの手法は、コンピュータビジョンシステムが通常どのようにテストされるか(視覚入力のみを使用)と、実際にどのように使われることが多いか(周囲のテキスト、GPSデータ、ユーザータグ、その他の文脈的な手がかりがしばしば利用可能)との間のギャップに対処する。研究者らは、その追加情報を取り込むようにネットワークを再訓練するのではなく、既知のラベルを推論ステップそのものにおいて訓練済みのネットワークに逆伝播させ、残る未知のラベルに対する予測が改善するまでネットワークの内部活性を調整できることを見いだした。彼らはこのアプローチの2つの変種(層を順次更新するものと、複数の層に小さな補正変数を同時に注入するもの)を、一部のラベルが既知のときの画像内オブジェクトの識別、粗いカテゴリが与えられたときの細粒度のシーンカテゴリの予測、オブジェクトのアノテーションが利用可能なときの画像キャプション生成を含む複数のタスクで検証した。VGG-16やResNetを含む複数の標準的なネットワークアーキテクチャと、すべてのタスクにわたって、部分的な証拠を加えることで精度が一貫して向上し、相対的な向上はタスクに応じておよそ10から13パーセントの範囲に及んだ。注目すべきことに、この技術は元のモデルの訓練に変更を一切必要とせず、既知ラベルと未知ラベルの任意の混合に対して機能するため、画像が何の付随する文脈もなしに届くことはまれである現実世界の運用シナリオにおいて広く実用的である。
要旨
我々は、部分的な証拠が利用可能な場合の深層畳み込みニューラルネットワーク(CNN)のための推論手順を提案する。本手法は、重複しない任意のターゲットラベルの集合の値が既知であるとき、任意の未知ターゲットラベルの集合に対する予測精度を高める、汎用的なフィードバックベースの伝播アプローチ(feedback-prop)から成る。マルチラベルまたはマルチタスク設定で訓練された既存のモデルが、再訓練やファインチューニングを一切行うことなくfeedback-propを容易に活用できることを示す。我々のfeedback-prop推論手順は汎用的で、単純で、信頼性が高く、さまざまな困難な視覚認識タスクで機能する。層単位の更新と残差的な反復更新に基づくfeedback-propの2つの変種を提示する。いくつかのマルチタスクモデルを用いて実験を行い、feedback-propがそれらすべてにおいて有効であることを示す。我々の結果は、これまで報告されていなかったが興味深い深層CNNの動的特性を明らかにする。また、一般的な視覚認識タスクにおける部分的証拠の下での推論のためにこの特性を活用する関連技術アプローチも提示する。
詳細
引用
@inproceedings{wang2018feedback,
title = {Feedback-prop: Convolutional Neural Network Inference under Partial Evidence},
author = {Wang, Tianlu and Yamaguchi, Kota and Ordonez, Vicente},
year = {2018},
booktitle = {Conference on Computer Vision and Pattern Recognition. CVPR 2018},
url = {https://arxiv.org/abs/1710.08049},
}