Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← retour aux publications

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de Rice University ont développé un système appelé HypoExplore qui automatise le processus de conception d'architectures de réseaux de neurones pour la reconnaissance d'images en traitant la recherche comme une expérience scientifique structurée plutôt que comme une succession d'essais et d'erreurs aveugles. Le problème central que le système aborde est que trouver de bonnes architectures neuronales pour des tâches spécialisées — comme l'imagerie médicale — nécessite encore généralement une expertise humaine considérable et de nombreuses itérations manuelles. Au lieu de partir d'un réseau existant et de le retoucher, HypoExplore commence à partir de zéro avec seulement une direction de recherche de haut niveau, en utilisant un grand modèle de langage pour générer des idées architecturales formulées comme des hypothèses explicites et testables. Le système suit chaque expérience dans une structure arborescente ramifiée et maintient une banque de mémoire qui enregistre la quantité de preuves accumulées pour ou contre chaque hypothèse, en utilisant ces scores de confiance pour orienter les essais suivants — en équilibrant l'exploitation des idées qui ont fonctionné et l'exploration de celles qui restent incertaines. Sur CIFAR-10, le système a évolué d'une précision initiale de 18,91 % à 94,11 % au cours de 50 itérations, découvrant finalement une architecture compacte de 0,9 million de paramètres appelée Global Shape Token Network qui égalait ou surpassait plusieurs réseaux bien connus conçus manuellement tout en utilisant beaucoup moins de paramètres. Le système a également obtenu des résultats de pointe sur des bancs d'essai d'imagerie médicale lorsqu'il a été exécuté indépendamment dans ce domaine. Fait notable, les chercheurs ont montré que les scores de confiance des hypothèses devenaient véritablement prédictifs au fil du temps — les hypothèses à haute confiance prévoyaient correctement les résultats expérimentaux 80 % du temps — ce qui suggère que le système construisait de réelles connaissances transférables sur la conception d'architectures plutôt que de tomber par hasard sur de bonnes solutions.

résumé

Nous présentons HypoExplore, un cadre agentique qui formule la découverte d'architectures neuronales pour la reconnaissance visuelle comme une investigation scientifique guidée par des hypothèses. À partir d'une direction de recherche de haut niveau spécifiée par un humain, HypoExplore conçoit, met en œuvre, évalue et améliore des architectures neuronales par ramification évolutive. De nouvelles hypothèses sont créées à l'aide d'un grand modèle de langage en sélectionnant une hypothèse parente sur laquelle s'appuyer, guidée par une double stratégie qui équilibre l'exploitation des principes validés et la résolution des principes incertains. Le cadre que nous proposons maintient un Arbre de Trajectoire qui enregistre la lignée de toutes les architectures proposées, ainsi qu'une Banque de Mémoire d'Hypothèses qui suit activement les scores de confiance acquis grâce aux preuves expérimentales. Après chaque expérience, plusieurs agents de rétroaction analysent les résultats sous différents angles et consolident leurs conclusions en mises à jour de la confiance des hypothèses. Notre cadre est testé sur la découverte d'architectures de vision légères sur CIFAR-10, la meilleure atteignant une précision de 94,11 % à partir d'une référence de nœud racine débutant à 18,91 %, et se généralise à CIFAR-100 et Tiny-ImageNet. Nous démontrons en outre son applicabilité à un domaine spécialisé en menant des cycles indépendants de découverte d'architectures sur MedMNIST, qui produisent une performance de pointe. Nous montrons que les scores de confiance des hypothèses deviennent de plus en plus prédictifs à mesure que les preuves s'accumulent, et que les principes appris se transfèrent à travers des lignées évolutives indépendantes, ce qui suggère que HypoExplore ne se contente pas de découvrir des architectures plus performantes, mais peut aussi contribuer à bâtir une véritable compréhension de l'espace de conception.

citation

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce que HypoExplore et quel problème aborde-t-il ? HypoExplore est un cadre multi-agents fondé sur les LLM pour la découverte automatisée d'architectures neuronales qui présente l'exploration de conception comme une investigation scientifique guidée par des hypothèses, dans le but de réduire la redondance et la myopie par rapport aux systèmes antérieurs de recherche d'architectures.
Quelle précision HypoExplore a-t-il atteinte sur CIFAR-10 et comment se compare-t-elle aux références ? La meilleure architecture découverte, GSTN avec 0,9 M de paramètres, a atteint une précision top-1 de 94,11 % sur CIFAR-10, surpassant ShuffleNet V2 à 90,1 % et SqueezeNet à 91,1 % avec moins de paramètres, bien qu'elle soit restée en deçà de MobileNet V3 à 95,5 % et de ResNet-18 à 95,4 %.
Comment HypoExplore sélectionne-t-il l'architecture à développer ensuite ? Il utilise une stratégie de sélection à deux étapes : un sélecteur de nœud parent évalue les branches en combinant la précision de validation et l'efficacité d'entraînement avec une mesure des hypothèses restant à tester, et un sélecteur d'hypothèses équilibre l'exploitation via l'échantillonnage de Thompson et l'exploration via un score d'incertitude épistémique.
Le système de notation de la confiance des hypothèses produit-il des prédictions significatives ? Oui, l'article rapporte que la précision des prédictions augmente de façon monotone avec la tranche de confiance : 58 % pour la plage de confiance de 0,25 à 0,5, 65 % pour 0,5 à 0,75 et 80 % pour 0,75 à 1,0, toutes supérieures à la référence de hasard de 50 %.
Les principes découverts dans une lignée architecturale peuvent-ils se transférer à d'autres ? L'article rapporte que les applications d'hypothèses inter-lignées ont réussi 65 % du temps sur 171 cas, comparativement à un taux de réussite intra-lignée de 57 % sur 93 cas, ce qui suggère que les principes appris ne sont pas spécifiques à une lignée.

Principales contributions

HypoExplore introduit un Arbre de Trajectoire qui enregistre la lignée complète des expériences architecturales et une Banque de Mémoire d'Hypothèses qui suit des scores de confiance mis à jour à l'aide de preuves pondérées après chaque expérience.
Le système a découvert GSTN, une architecture de 0,9 M de paramètres atteignant 94,11 % sur CIFAR-10 qui se généralise à 72,6 % sur CIFAR-100 et 58,1 % sur Tiny-ImageNet sans modification architecturale supplémentaire.
Un cycle de découverte indépendant sur DermalMNIST a produit une architecture atteignant 82,1 % sur DermalMNIST et 73,9 % sur TissueMNIST, que les auteurs présentent comme un résultat de pointe sur ces deux tâches parmi les méthodes comparées.
Des expériences d'ablation montrent que la suppression de l'un quelconque des éléments — recherche guidée par hypothèses, rétroaction multi-agents, sélection d'hypothèses ou sélection de parents — fait plafonner le système en deçà du plafond de 94,1 % du système complet.
L'article démontre que les scores de confiance des hypothèses deviennent de plus en plus calibrés sur les résultats expérimentaux réels à mesure que les preuves s'accumulent, et que le nombre d'hypothèses validées évolue de concert avec les gains de précision au cours de la recherche sur 50 itérations.

Limites et mises en garde

L'évaluation actuelle porte sur CIFAR-10, CIFAR-100, Tiny-ImageNet et MedMNIST plutôt que sur un entraînement à l'échelle complète d'ImageNet ; cela laisse la place à des travaux futurs pour vérifier si les mêmes avantages de la recherche guidée par hypothèses se reportent à des contextes de reconnaissance visuelle plus vastes.
Le cadre utilise GPT-4o-mini pour tous les rôles d'agents, de sorte que la reproductibilité et le coût de déploiement dépendent en partie de l'accès à des API de LLM performantes ; en même temps, l'Arbre de Trajectoire et la Banque de Mémoire d'Hypothèses explicites de l'article rendent le processus de raisonnement plus inspectable que de nombreux pipelines de recherche en boîte noire.
Le budget de recherche est de 50 itérations à partir de 5 architectures racines, de sorte que des expériences supplémentaires seraient nécessaires pour cartographier le comportement de la méthode à l'échelle ; les gains importants obtenus dans le cadre de ce budget modeste constituent néanmoins un signal utile de l'efficacité de la stratégie de recherche.
La comparaison sur MedMNIST n'est pas parfaitement uniforme, car plusieurs références ne rapportent que certaines tâches, mais le cycle de découverte indépendant fournit tout de même des preuves encourageantes qu'HypoExplore peut s'adapter au-delà des bancs d'essai d'images naturelles de type CIFAR.
L'article démontre la classification d'images plutôt que la détection, la segmentation ou des domaines hors vision, de sorte que ces applications restent ouvertes ; les preuves de transférabilité des hypothèses entre lignées rendent cette extension plausible et digne d'être explorée.

Comment interpréter ce résultat

Cet article se lit au mieux comme une étape prometteuse et exceptionnellement interprétable vers la découverte scientifique agentique pour la reconnaissance visuelle : ses limites sont réelles, en particulier autour de la validation à plus grande échelle, mais les gains de précision rapportés, les preuves de transférabilité des hypothèses et les architectures compactes découvertes font de ce travail une contribution résolument positive.