Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← 論文一覧に戻る

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

論文 pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

ライス大学の研究者らは、探索を当てずっぽうの試行錯誤ではなく構造化された科学的実験として扱うことで、画像認識のためのニューラルネットワークアーキテクチャの設計プロセスを自動化するHypoExploreと呼ばれるシステムを開発した。このシステムが取り組む中心的な課題は、医用画像のような特定タスク向けの優れたニューラルアーキテクチャを見つけるには、依然として相当な人間の専門知識と繰り返しの手動による反復が一般的に必要とされることである。HypoExploreは既存のネットワークから出発して調整するのではなく、高水準の研究方針のみを起点としてゼロから始め、大規模言語モデルを用いて明示的に検証可能な仮説として枠付けされたアーキテクチャのアイデアを生成する。このシステムはすべての実験を分岐するツリー構造で追跡し、各仮説を支持または反証する証拠がどれだけ蓄積したかを記録するメモリバンクを保持し、それらの確信度スコアを用いて次に何を試すかを導く。すなわち、うまくいったアイデアの活用と不確かなアイデアの探索のバランスをとる。CIFAR-10での実行において、このシステムは50回の反復にわたって18.91%という開始時の精度から94.11%へと進化し、最終的にはGlobal Shape Token Networkと呼ばれるコンパクトな90万パラメータのアーキテクチャを発見した。これははるかに少ないパラメータを用いながら、よく知られたいくつかの手動設計ネットワークに匹敵するか、それを上回る性能を示した。このシステムはまた、医用画像分野で独立に実行した際にその分野のベンチマークで最先端の結果を達成した。注目すべきことに、研究者らは仮説の確信度スコアが時間とともに真に予測力を持つようになることを示した。高確信度の仮説は80%の確率で実験結果を正しく予測しており、このシステムが単に優れた解にたまたま行き当たっているのではなく、アーキテクチャ設計に関する真に転移可能な知識を構築していることを示唆している。

要旨

本研究では、視覚認識のためのニューラルアーキテクチャ探索を仮説駆動型の科学的探究として定式化するエージェント型フレームワークであるHypoExploreを提案する。人間が指定した高水準の研究方針が与えられると、HypoExploreは進化的な分岐を通じてニューラルアーキテクチャを発想し、実装し、評価し、改良する。新たな仮説は、構築の基盤となる親仮説を選択することにより大規模言語モデルを用いて生成され、検証済みの原理を活用することと不確かな原理を解明することのバランスをとる二重戦略によって導かれる。提案するフレームワークは、提案されたすべてのアーキテクチャの系譜を記録するTrajectory Treeと、実験的証拠を通じて獲得された確信度スコアを能動的に追跡するHypothesis Memory Bankを保持する。各実験の後、複数のフィードバックエージェントが異なる観点から結果を分析し、その知見を仮説の確信度更新へと統合する。本フレームワークはCIFAR-10における軽量な視覚アーキテクチャの探索で検証され、最良のものは18.91%から始まる根ノードのベースラインから進化して94.11%の精度を達成し、CIFAR-100およびTiny-ImageNetへと汎化する。さらに、MedMNISTにおいて独立したアーキテクチャ探索を実行することで特定分野への適用可能性を示し、最先端の性能を達成した。証拠が蓄積するにつれて仮説の確信度スコアが次第に予測力を高めること、および学習された原理が独立した進化系統間で転移することを示し、HypoExploreがより優れたアーキテクチャを発見するだけでなく、設計空間に関する真の理解の構築に役立ち得ることを示唆する。

引用

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

この論文について自動生成された質問、主な貢献、および限界

この論文が答える助けとなる質問

HypoExploreとは何であり、どのような問題に取り組むのか。HypoExploreは、自動ニューラルアーキテクチャ探索のためのマルチエージェント型のLLMベースのフレームワークであり、設計探索を仮説駆動型の科学的探究として枠付けし、従来のアーキテクチャ探索システムと比較して冗長性と近視眼性を低減することを目指している。
HypoExploreはCIFAR-10でどの程度の精度を達成し、ベースラインと比較してどうか。発見された最良のアーキテクチャである90万パラメータのGSTNは、CIFAR-10で94.11%のトップ1精度に達し、より少ないパラメータで90.1%のShuffleNet V2と91.1%のSqueezeNetを上回ったが、95.5%のMobileNet V3と95.4%のResNet-18には及ばなかった。
HypoExploreは次に開発するアーキテクチャをどのように選択するのか。二段階の選択戦略を用いる。親ノード選択器は検証精度と訓練効率を未検証の残存仮説の尺度と組み合わせて分岐をスコア付けし、仮説選択器はThompsonサンプリングによる活用と認識論的不確実性スコアによる探索のバランスをとる。
仮説の確信度スコアリングシステムは意味のある予測を生み出すか。然り、論文は予測精度が確信度のビンに伴って単調に増加することを報告している。確信度0.25から0.5の範囲では58%、0.5から0.75では65%、0.75から1.0では80%であり、いずれも50%の偶然のベースラインを上回っている。
ある一つのアーキテクチャ系統で発見された原理は他の系統へ転移できるか。論文は、系統間にまたがる仮説の適用が171件中65%の確率で成功し、これは93件中57%の系統内での成功率に匹敵すると報告しており、学習された原理が系統固有のものではないことを示唆している。

主な貢献

HypoExploreは、アーキテクチャ実験の完全な系譜を記録するTrajectory Treeと、各実験後に重み付けされた証拠で更新される確信度スコアを追跡するHypothesis Memory Bankを導入する。
このシステムは、CIFAR-10で94.11%に達する90万パラメータのアーキテクチャであるGSTNを発見し、これは追加のアーキテクチャ変更なしにCIFAR-100で72.6%、Tiny-ImageNetで58.1%へと汎化する。
DermalMNISTにおける独立した探索実行は、DermalMNISTで82.1%、TissueMNISTで73.9%を達成するアーキテクチャを生み出し、著者らはこれらを比較した手法の中でこの二つのタスクにおける最先端であると報告している。
アブレーション実験は、仮説駆動型探索、マルチエージェントフィードバック、仮説選択、親選択のいずれか一つを取り除くと、それぞれシステムが完全版の94.1%の上限を下回って頭打ちになることを示している。
本論文は、証拠が蓄積するにつれて仮説の確信度スコアが実際の実験結果に対して次第に較正されること、および検証済み仮説数が50回の反復探索を通じて精度の向上と連動して変化することを示している。

限界と注意点

現在の評価は、完全なImageNet規模の訓練ではなくCIFAR-10、CIFAR-100、Tiny-ImageNet、MedMNISTに焦点を当てている。このため、同じ仮説駆動型探索の利点がより大規模な視覚認識の設定にも引き継がれるかどうかを検証する余地が今後の研究に残されている。
このフレームワークはすべてのエージェントの役割にGPT-4o-miniを用いるため、再現性と展開コストは有能なLLM APIへのアクセスに部分的に依存する。同時に、本論文の明示的なTrajectory TreeとHypothesis Memory Bankは、多くのブラックボックス型探索パイプラインよりも推論プロセスを検査可能にしている。
探索予算は5つの根アーキテクチャからの50回の反復であるため、本手法のスケーリング挙動を明らかにするには追加の実験が必要となる。それでもなお、このささやかな予算内で達成された大きな向上は、探索戦略が効率的であることを示す有用な手がかりである。
いくつかのベースラインが一部のタスクのみを報告しているため、MedMNISTの比較は完全に一様ではないが、独立した探索実行は依然として、HypoExploreがCIFAR型の自然画像ベンチマークを超えて適応できるという心強い証拠を提供している。
本論文は検出、セグメンテーション、あるいは非視覚分野ではなく画像分類を実証しているため、それらの応用は未解決のままである。系統間にまたがる転移可能な仮説の証拠は、その拡張をもっともらしく、検討に値するものにしている。

この結果の読み解き方

本論文は、視覚認識のためのエージェント型科学的発見に向けた、有望かつ異例なほど解釈可能な一歩として読むのが最も適切である。その限界は、特により大規模な検証に関して現実のものであるが、報告された精度の向上、転移可能な仮説の証拠、そして発見されたコンパクトなアーキテクチャは、本研究を強力で前向きな貢献たらしめている。