Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← 返回论文列表

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

论文 pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

莱斯大学的研究人员开发了一个名为 HypoExplore 的系统，它将架构搜索视为一项结构化的科学实验，而非盲目的试错，从而自动化了为图像识别设计神经网络架构的过程。该系统针对的核心问题是：为专门任务（例如医学影像）找到良好的神经架构，通常仍需要大量人类专业知识和反复的手动迭代。HypoExplore 不是从现有网络出发进行调整，而是仅凭一个高层研究方向从零开始，利用大语言模型生成以明确可检验假设形式呈现的架构思路。该系统在一棵分支树结构中追踪每一次实验，并维护一个记忆库，记录支持或反对每个假设的证据积累了多少，利用这些置信度分数来引导下一步尝试什么——在利用已奏效的思路与探索不确定的思路之间取得平衡。在 CIFAR-10 上运行时，该系统在 50 次迭代中将起始准确率从 18.91% 提升到 94.11%，最终发现了一个名为 Global Shape Token Network 的紧凑型 0.9 百万参数架构，它在参数远少得多的情况下，达到或超越了数个知名的手工设计网络。在医学影像领域独立运行时，该系统还在相关基准上取得了最先进的结果。值得注意的是，研究人员表明，假设置信度分数随着时间推移变得真正具有预测性——高置信度假设有 80% 的时间能正确预测实验结果——这表明该系统是在构建关于架构设计的真正可迁移知识，而不仅仅是偶然碰到好的解决方案。

摘要

我们提出了 HypoExplore，一个将面向视觉识别的神经架构发现表述为假设驱动的科学探究的智能体框架。给定人类指定的高层研究方向，HypoExplore 通过演化式分支来构思、实现、评估并改进神经架构。新假设由大语言模型生成，方法是选择一个父假设进行拓展，并由一种在利用已验证原则与解决不确定原则之间取得平衡的双重策略来引导。我们提出的框架维护一棵 Trajectory Tree，记录所有提出架构的谱系，以及一个 Hypothesis Memory Bank，主动追踪通过实验证据获得的置信度分数。每次实验之后，多个反馈智能体从不同角度分析结果，并将其发现整合为假设置信度更新。我们在 CIFAR-10 上测试该框架以发现轻量级视觉架构，最优架构达到 94.11% 的准确率，从起始为 18.91% 的根节点基线演化而来，并可推广到 CIFAR-100 和 Tiny-ImageNet。我们进一步通过在 MedMNIST 上进行独立的架构发现运行，证明了其在专门领域的适用性，取得了最先进的性能。我们表明，随着证据的积累，假设置信度分数的预测能力日益增强，并且学到的原则可在独立的演化谱系之间迁移，这表明 HypoExplore 不仅能发现更强的架构，还有助于建立对设计空间的真正理解。

引用

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

什么是 HypoExplore，它解决了什么问题？HypoExplore 是一个基于多智能体 LLM 的自动神经架构发现框架，它将设计探索表述为假设驱动的科学探究，旨在相比先前的架构搜索系统减少冗余和短视。
HypoExplore 在 CIFAR-10 上达到了多高的准确率，与基线相比如何？所发现的最优架构 GSTN（0.9M 参数）在 CIFAR-10 上达到 94.11% 的 top-1 准确率，以更少的参数超越了 90.1% 的 ShuffleNet V2 和 91.1% 的 SqueezeNet，但低于 95.5% 的 MobileNet V3 和 95.4% 的 ResNet-18。
HypoExplore 如何选择接下来要发展的架构？它采用两阶段选择策略：父节点选择器通过结合验证准确率、训练效率以及对剩余未检验假设的度量来为各分支评分，而假设选择器则在通过 Thompson 采样进行的利用与通过认知不确定性分数进行的探索之间取得平衡。
假设置信度评分系统是否产生有意义的预测？是的，论文报告预测准确率随置信度区间单调递增：0.25 至 0.5 置信度区间为 58%，0.5 至 0.75 为 65%，0.75 至 1.0 为 80%，均高于 50% 的随机基线。
在一个架构谱系中发现的原则能否迁移到其他谱系？论文报告，跨谱系的假设应用在 171 个案例中有 65% 的成功率，与谱系内 93 个案例中 57% 的成功率相当，这表明所学到的原则并非特定于某一谱系。

主要贡献

HypoExplore 引入了一棵 Trajectory Tree，用于记录架构实验的完整谱系，以及一个 Hypothesis Memory Bank，用于追踪在每次实验后以加权证据更新的置信度分数。
该系统发现了 GSTN，一个在 CIFAR-10 上达到 94.11% 的 0.9M 参数架构，无需额外架构改动即可推广到 CIFAR-100 上的 72.6% 和 Tiny-ImageNet 上的 58.1%。
在 DermalMNIST 上的一次独立发现运行产生了一个架构，在 DermalMNIST 上达到 82.1%、在 TissueMNIST 上达到 73.9%，作者报告称这在所比较的方法中是这两项任务上的最先进水平。
消融实验表明，移除假设驱动搜索、多智能体反馈、假设选择或父节点选择中的任意一项，都会使系统停滞在低于完整系统 94.1% 上限的水平。
论文证明，随着证据的积累，假设置信度分数与实际实验结果的校准程度日益提高，并且在 50 次迭代的搜索过程中，已验证假设的数量与准确率提升同步变化。

局限与注意事项

当前评估聚焦于 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 MedMNIST，而非完整的 ImageNet 规模训练；这为未来工作留下了空间，以检验同样的假设驱动搜索优势是否能延续到更大规模的视觉识别场景。
该框架对所有智能体角色都使用 GPT-4o-mini，因此可复现性和部署成本部分取决于对强大 LLM API 的访问；与此同时，论文中明确的 Trajectory Tree 和 Hypothesis Memory Bank 使推理过程比许多黑盒搜索流程更易于检视。
搜索预算为从 5 个根架构出发的 50 次迭代，因此需要额外实验来刻画该方法的扩展行为；不过，在这一适度预算内取得的强劲收益仍是搜索策略高效的一个有用信号。
MedMNIST 的比较并不完全统一，因为若干基线只报告了部分任务，但独立的发现运行仍提供了令人鼓舞的证据，表明 HypoExplore 能够适应超越 CIFAR 风格自然图像基准的场景。
论文展示的是图像分类，而非检测、分割或非视觉领域，因此这些应用仍待探索；跨谱系可迁移的假设证据使这种扩展具有合理性并值得研究。

如何理解这一结果

这篇论文最好被理解为面向视觉识别的智能体式科学发现迈出的一步，既有前景又异乎寻常地可解释：它的局限是真实存在的，尤其是在更大规模的验证方面，但所报告的准确率提升、可迁移的假设证据以及发现的紧凑架构，使这项工作成为一项强有力的正面贡献。