Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← zurück zu den Publikationen

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

Artikel pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende an der Rice University haben ein System namens HypoExplore entwickelt, das den Prozess des Entwurfs neuronaler Netzwerkarchitekturen für die Bilderkennung automatisiert, indem es die Suche als strukturiertes wissenschaftliches Experiment behandelt statt als blindes Ausprobieren. Das Kernproblem, das das System angeht, besteht darin, dass das Finden guter neuronaler Architekturen für spezialisierte Aufgaben – etwa in der medizinischen Bildgebung – typischerweise noch erhebliche menschliche Expertise und wiederholte manuelle Iteration erfordert. Anstatt von einem bestehenden Netzwerk auszugehen und es anzupassen, beginnt HypoExplore von Grund auf mit lediglich einer übergeordneten Forschungsrichtung und nutzt ein Large Language Model, um architektonische Ideen zu erzeugen, die als explizite, überprüfbare Hypothesen formuliert sind. Das System verfolgt jedes Experiment in einer verzweigten Baumstruktur und unterhält eine Memory Bank, die aufzeichnet, wie viel Evidenz sich für oder gegen jede Hypothese angesammelt hat, und nutzt diese Konfidenzwerte, um zu steuern, was als Nächstes versucht wird – wobei das Ausnutzen von Ideen, die funktioniert haben, gegen das Erkunden unsicherer Ideen abgewogen wird. Auf CIFAR-10 ausgeführt, entwickelte sich das System über 50 Iterationen von einer Anfangsgenauigkeit von 18,91 % auf 94,11 % und entdeckte schließlich eine kompakte Architektur mit 0,9 Millionen Parametern namens Global Shape Token Network, die mehrere bekannte, manuell entworfene Netzwerke erreichte oder übertraf und dabei weitaus weniger Parameter verwendete. Das System erzielte zudem State-of-the-Art-Ergebnisse auf Benchmarks der medizinischen Bildgebung, als es unabhängig auf dieser Domäne ausgeführt wurde. Bemerkenswerterweise zeigten die Forschenden, dass die Hypothesen-Konfidenzwerte mit der Zeit tatsächlich prädiktiv wurden – Hypothesen mit hoher Konfidenz sagten experimentelle Ergebnisse in 80 % der Fälle korrekt voraus –, was darauf hindeutet, dass das System echtes, übertragbares Wissen über den Architekturentwurf aufbaute, anstatt nur zufällig auf gute Lösungen zu stoßen.

Zusammenfassung

Wir stellen HypoExplore vor, ein agentisches Framework, das die Entdeckung neuronaler Architekturen für die visuelle Erkennung als hypothesengeleitete wissenschaftliche Untersuchung formuliert. Ausgehend von einer von Menschen vorgegebenen übergeordneten Forschungsrichtung entwirft, implementiert, evaluiert und verbessert HypoExplore neuronale Architekturen durch evolutionäre Verzweigung. Neue Hypothesen werden mithilfe eines Large Language Model erzeugt, indem eine Eltern-Hypothese ausgewählt wird, auf der aufgebaut werden soll; dies wird durch eine duale Strategie gesteuert, die das Ausnutzen bestätigter Prinzipien mit dem Auflösen unsicherer Prinzipien ausbalanciert. Unser vorgeschlagenes Framework unterhält einen Trajectory Tree, der die Abstammung aller vorgeschlagenen Architekturen aufzeichnet, sowie eine Hypothesis Memory Bank, die aktiv die durch experimentelle Evidenz gewonnenen Konfidenzwerte verfolgt. Nach jedem Experiment analysieren mehrere Feedback-Agenten die Ergebnisse aus unterschiedlichen Perspektiven und konsolidieren ihre Erkenntnisse zu Aktualisierungen der Hypothesen-Konfidenz. Unser Framework wird bei der Entdeckung leichtgewichtiger Vision-Architekturen auf CIFAR-10 getestet, wobei die beste Architektur eine Genauigkeit von 94,11 % erreicht, ausgehend von einer Wurzelknoten-Baseline, die bei 18,91 % beginnt, und sich auf CIFAR-100 und Tiny-ImageNet generalisiert. Wir demonstrieren darüber hinaus die Anwendbarkeit auf eine spezialisierte Domäne, indem wir unabhängige Architektur-Entdeckungsläufe auf MedMNIST durchführen, die eine State-of-the-Art-Leistung erzielen. Wir zeigen, dass die Hypothesen-Konfidenzwerte mit zunehmender Evidenz immer prädiktiver werden und dass die erlernten Prinzipien über unabhängige evolutionäre Abstammungslinien hinweg übertragbar sind, was darauf hindeutet, dass HypoExplore nicht nur leistungsfähigere Architekturen entdeckt, sondern auch dabei helfen kann, ein echtes Verständnis des Designraums aufzubauen.

Zitation

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

automatisch generierte Fragen, wichtigste Beiträge und Grenzen dieses Artikels

Fragen, die dieser Artikel beantworten hilft

Was ist HypoExplore und welches Problem adressiert es? HypoExplore ist ein auf mehreren Agenten basierendes, LLM-gestütztes Framework für die automatisierte Entdeckung neuronaler Architekturen, das die Designexploration als hypothesengeleitete wissenschaftliche Untersuchung formuliert, mit dem Ziel, Redundanz und Kurzsichtigkeit im Vergleich zu früheren Systemen zur Architektursuche zu verringern.
Welche Genauigkeit erreichte HypoExplore auf CIFAR-10 und wie schneidet sie im Vergleich zu Baselines ab? Die beste entdeckte Architektur, GSTN mit 0,9 Mio. Parametern, erreichte 94,11 % Top-1-Genauigkeit auf CIFAR-10 und übertraf damit ShuffleNet V2 mit 90,1 % und SqueezeNet mit 91,1 % bei weniger Parametern, blieb jedoch hinter MobileNet V3 mit 95,5 % und ResNet-18 mit 95,4 % zurück.
Wie wählt HypoExplore aus, welche Architektur als Nächstes weiterentwickelt wird? Es verwendet eine zweistufige Auswahlstrategie: Ein Elternknoten-Selektor bewertet Verzweigungen, indem er Validierungsgenauigkeit und Trainingseffizienz mit einem Maß für die verbleibenden ungetesteten Hypothesen kombiniert, und ein Hypothesen-Selektor balanciert das Ausnutzen mittels Thompson-Sampling mit der Exploration mittels eines epistemischen Unsicherheitswerts.
Liefert das Konfidenzbewertungssystem für Hypothesen aussagekräftige Vorhersagen? Ja, die Arbeit berichtet, dass die Vorhersagegenauigkeit monoton mit dem Konfidenzintervall steigt: 58 % für den Konfidenzbereich 0,25 bis 0,5, 65 % für 0,5 bis 0,75 und 80 % für 0,75 bis 1,0, allesamt oberhalb der Zufalls-Baseline von 50 %.
Können in einer architektonischen Abstammungslinie entdeckte Prinzipien auf andere übertragen werden? Die Arbeit berichtet, dass abstammungsübergreifende Hypothesenanwendungen in 65 % der Fälle über 171 Fälle hinweg erfolgreich waren, vergleichbar mit dem Erfolg innerhalb einer Abstammungslinie von 57 % über 93 Fälle, was darauf hindeutet, dass die erlernten Prinzipien nicht abstammungsspezifisch sind.

Wichtigste Beiträge

HypoExplore führt einen Trajectory Tree ein, der die vollständige Abstammung architektonischer Experimente aufzeichnet, sowie eine Hypothesis Memory Bank, die Konfidenzwerte verfolgt, welche nach jedem Experiment mit gewichteter Evidenz aktualisiert werden.
Das System entdeckte GSTN, eine Architektur mit 0,9 Mio. Parametern, die 94,11 % auf CIFAR-10 erreicht und sich ohne zusätzliche Architekturänderungen auf 72,6 % auf CIFAR-100 und 58,1 % auf Tiny-ImageNet generalisiert.
Ein unabhängiger Entdeckungslauf auf DermalMNIST erbrachte eine Architektur, die 82,1 % auf DermalMNIST und 73,9 % auf TissueMNIST erreicht, was die Autoren als State-of-the-Art bei diesen beiden Aufgaben unter den verglichenen Methoden angeben.
Ablationsexperimente zeigen, dass das Entfernen jeweils einer der Komponenten – hypothesengeleitete Suche, Multi-Agenten-Feedback, Hypothesenauswahl oder Elternauswahl – das System jeweils unterhalb der Obergrenze des vollständigen Systems von 94,1 % stagnieren lässt.
Die Arbeit zeigt, dass die Hypothesen-Konfidenzwerte mit zunehmender Evidenz immer besser auf die tatsächlichen experimentellen Ergebnisse kalibriert werden und dass die Anzahl bestätigter Hypothesen über die 50-iterative Suche hinweg mit den Genauigkeitsgewinnen einhergeht.

Grenzen und Vorbehalte

Die aktuelle Evaluation konzentriert sich auf CIFAR-10, CIFAR-100, Tiny-ImageNet und MedMNIST statt auf ein vollständiges Training im ImageNet-Maßstab; dies lässt Raum für künftige Arbeiten, um zu testen, ob sich dieselben Vorteile der hypothesengeleiteten Suche auf größere Einstellungen der visuellen Erkennung übertragen.
Das Framework verwendet GPT-4o-mini für alle Agentenrollen, sodass Reproduzierbarkeit und Bereitstellungskosten teilweise vom Zugang zu leistungsfähigen LLM-APIs abhängen; zugleich machen der explizite Trajectory Tree und die Hypothesis Memory Bank der Arbeit den Argumentationsprozess inspizierbarer als bei vielen Black-Box-Suchpipelines.
Das Suchbudget umfasst 50 Iterationen ausgehend von 5 Wurzelarchitekturen, sodass zusätzliche Experimente nötig wären, um das Skalierungsverhalten der Methode abzubilden; die starken Gewinne, die innerhalb dieses bescheidenen Budgets erzielt wurden, sind dennoch ein nützliches Signal dafür, dass die Suchstrategie effizient ist.
Der MedMNIST-Vergleich ist nicht völlig einheitlich, da mehrere Baselines nur einige Aufgaben berichten, doch der unabhängige Entdeckungslauf liefert dennoch ermutigende Belege dafür, dass HypoExplore sich über Benchmarks mit natürlichen Bildern im CIFAR-Stil hinaus anpassen kann.
Die Arbeit demonstriert Bildklassifikation, jedoch nicht Detektion, Segmentierung oder Nicht-Vision-Domänen, sodass diese Anwendungen offen bleiben; die über Abstammungslinien hinweg übertragbare Hypothesenevidenz macht diese Erweiterung plausibel und untersuchenswert.

Wie dieses Ergebnis zu lesen ist

Diese Arbeit ist am besten als ein vielversprechender und ungewöhnlich interpretierbarer Schritt hin zur agentischen wissenschaftlichen Entdeckung für die visuelle Erkennung zu lesen: Ihre Einschränkungen sind real, insbesondere im Hinblick auf die Validierung im größeren Maßstab, doch die berichteten Genauigkeitsgewinne, die übertragbare Hypothesenevidenz und die kompakten entdeckten Architekturen machen die Arbeit zu einem starken positiven Beitrag.