XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks
プレスリリース要約
アレン人工知能研究所とワシントン大学の研究者らは、通常は高価で電力を大量に消費するGPUを実行に必要とする画像認識ニューラルネットワークを、劇的に小型化し高速化する方法を開発した。Mohammad RastegariとAli Farhadiが率いる研究チームは、単純だが重大な問題に取り組んだ。標準的な畳み込みニューラルネットワークは、その内部パラメータを32ビット浮動小数点数として格納し、1枚の画像を分類するために数十億回の高精度な乗算を実行するため、スマートフォンやその他のリソースが制約された機器には実用的でない。Binary-Weight-NetworksとXNOR-Networksと呼ばれる2つの関連するアプローチに関する論文で説明される彼らの解決策は、それらのフル精度の数値を単一のビット(本質的には正か負の1のみ)に置き換え、コストの高い積和演算を、現代のCPUが効率的に処理する高速なXNORおよびビットカウント命令に置き換える。2値重み版はメモリ使用量をおよそ32倍削減し、大規模なImageNetベンチマークで標準的なAlexNetのフル精度の精度に匹敵した。一方、格納されたフィルタとネットワークを流れるデータの両方を2値化する、より積極的なXNOR-Netは、若干の精度を犠牲にして約58倍高速な畳み込み演算を達成した。決定的に重要な点として、研究者らは単純なスケーリング係数(本質的には元の重みの平均的な大きさ)を導入し、これが2値化で失われた情報を部分的に補償する。彼らは、この工夫こそが、ImageNetのtop-1精度で16パーセントポイント以上遅れをとっていた以前の2値化の試みと彼らの結果とを分けるものであることを示している。実用上の含意は、有能な画像認識モデルが、クラウドへのオフロードや専用ハードウェアを必要とせずに、スマートフォンやウェアラブルの通常のCPU上でリアルタイムに動作しうるということである。
要旨
我々は、標準的な畳み込みニューラルネットワークに対する2つの効率的な近似、Binary-Weight-NetworksとXNOR-Networksを提案する。Binary-Weight-Networksでは、フィルタが2値で近似され、その結果32倍のメモリ削減が実現される。XNOR-Networksでは、フィルタと畳み込み層への入力の両方が2値である。XNOR-Networksは、主として2値演算を用いて畳み込みを近似する。これにより、58倍高速な畳み込み演算と32倍のメモリ削減が実現される。XNOR-Netは、最先端のネットワークをGPUではなくCPU上でリアルタイムに実行する可能性を提供する。我々の2値ネットワークは単純で、正確で、効率的であり、困難な視覚タスクで機能する。我々はImageNet分類タスクで本アプローチを評価する。Binary-Weight-Network版のAlexNetの分類精度は、フル精度のAlexNetよりわずか2.9%(top-1指標で)低いだけである。我々の手法を最近のネットワーク2値化手法であるBinaryConnectおよびBinaryNetsと比較し、ImageNetにおいてこれらの手法をtop-1精度で16%以上という大きな差で上回る。
引用
@inproceedings{rastegari2016xnor,
title = {XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks},
author = {Rastegari, Mohammad and Ordonez, Vicente and Redmon, Joseph and Farhadi, Ali},
year = {2016},
booktitle = {European Conference on Computer Vision. ECCV 2016},
url = {http://arxiv.org/abs/1603.05279},
}