Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← volver a publicaciones

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice han desarrollado un sistema llamado HypoExplore que automatiza el proceso de diseño de arquitecturas de redes neuronales para el reconocimiento de imágenes, tratando la búsqueda como un experimento científico estructurado en lugar de un proceso ciego de ensayo y error. El problema central que aborda el sistema es que encontrar buenas arquitecturas neuronales para tareas especializadas —como las imágenes médicas— todavía suele requerir una considerable experiencia humana y una iteración manual repetida. En lugar de partir de una red existente y ajustarla, HypoExplore comienza desde cero con solo una dirección de investigación de alto nivel, utilizando un large language model para generar ideas arquitectónicas formuladas como hipótesis explícitas y comprobables. El sistema rastrea cada experimento en una estructura de árbol ramificado y mantiene un banco de memoria que registra cuánta evidencia se ha acumulado a favor o en contra de cada hipótesis, usando esas puntuaciones de confianza para guiar qué probar a continuación, equilibrando la explotación de ideas que han funcionado con la exploración de las inciertas. Ejecutándose en CIFAR-10, el sistema evolucionó desde una precisión inicial del 18.91% hasta el 94.11% a lo largo de 50 iteraciones, descubriendo finalmente una arquitectura compacta de 0.9 millones de parámetros llamada Global Shape Token Network que igualó o superó a varias redes diseñadas manualmente y bien conocidas, usando muchos menos parámetros. El sistema también logró resultados de vanguardia en benchmarks de imágenes médicas cuando se ejecutó de manera independiente en ese dominio. Cabe destacar que los investigadores mostraron que las puntuaciones de confianza de las hipótesis se volvieron genuinamente predictivas con el tiempo —las hipótesis de alta confianza pronosticaron correctamente los resultados experimentales el 80% de las veces—, lo que sugiere que el sistema estaba construyendo conocimiento real y transferible sobre el diseño de arquitecturas en lugar de simplemente tropezar con buenas soluciones.

resumen

Presentamos HypoExplore, un marco agéntico que formula el descubrimiento de arquitecturas neuronales para el reconocimiento visual como una indagación científica impulsada por hipótesis. Dada una dirección de investigación de alto nivel especificada por un humano, HypoExplore idea, implementa, evalúa y mejora arquitecturas neuronales mediante ramificación evolutiva. Las nuevas hipótesis se crean utilizando un large language model que selecciona una hipótesis padre sobre la cual construir, guiado por una estrategia dual que equilibra la explotación de principios validados con la resolución de los inciertos. El marco que proponemos mantiene un Trajectory Tree que registra el linaje de todas las arquitecturas propuestas, y un Hypothesis Memory Bank que rastrea activamente las puntuaciones de confianza adquiridas mediante evidencia experimental. Después de cada experimento, múltiples agentes de retroalimentación analizan los resultados desde diferentes perspectivas y consolidan sus hallazgos en actualizaciones de confianza de las hipótesis. Nuestro marco se prueba en el descubrimiento de arquitecturas de visión ligeras en CIFAR-10, donde el mejor resultado alcanza una precisión del 94.11% evolucionando a partir de una línea base en el nodo raíz que comienza en 18.91%, y generaliza a CIFAR-100 y Tiny-ImageNet. Además, demostramos su aplicabilidad a un dominio especializado al realizar ejecuciones independientes de descubrimiento de arquitecturas en MedMNIST, que arrojan un rendimiento de vanguardia. Mostramos que las puntuaciones de confianza de las hipótesis se vuelven cada vez más predictivas a medida que se acumula evidencia, y que los principios aprendidos se transfieren entre linajes evolutivos independientes, lo que sugiere que HypoExplore no solo descubre arquitecturas más sólidas, sino que puede ayudar a construir una comprensión genuina del espacio de diseño.

cita

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

¿Qué es HypoExplore y qué problema aborda? HypoExplore es un marco basado en múltiples agentes LLM para el descubrimiento automatizado de arquitecturas neuronales que plantea la exploración del diseño como una indagación científica impulsada por hipótesis, con el objetivo de reducir la redundancia y la miopía en comparación con sistemas previos de búsqueda de arquitecturas.
¿Qué precisión alcanzó HypoExplore en CIFAR-10 y cómo se compara con las líneas base? La mejor arquitectura descubierta, GSTN con 0.9M de parámetros, alcanzó una precisión top-1 del 94.11% en CIFAR-10, superando a ShuffleNet V2 con 90.1% y a SqueezeNet con 91.1% usando menos parámetros, aunque quedó por debajo de MobileNet V3 con 95.5% y ResNet-18 con 95.4%.
¿Cómo selecciona HypoExplore qué arquitectura desarrollar a continuación? Utiliza una estrategia de selección en dos etapas: un selector de nodo padre puntúa las ramas combinando la precisión de validación y la eficiencia de entrenamiento con una medida de las hipótesis restantes sin probar, y un selector de hipótesis equilibra la explotación mediante muestreo de Thompson con la exploración mediante una puntuación de incertidumbre epistémica.
¿El sistema de puntuación de confianza de las hipótesis produce predicciones significativas? Sí, el artículo reporta que la precisión de las predicciones aumenta de forma monótona con el intervalo de confianza: 58% para el rango de confianza de 0.25 a 0.5, 65% para 0.5 a 0.75 y 80% para 0.75 a 1.0, todos por encima de la línea base de azar del 50%.
¿Pueden los principios descubiertos en un linaje arquitectónico transferirse a otros? El artículo reporta que las aplicaciones de hipótesis entre linajes tuvieron éxito el 65% de las veces en 171 casos, comparable al éxito dentro del mismo linaje del 57% en 93 casos, lo que sugiere que los principios aprendidos no son específicos de un linaje.

Contribuciones principales

HypoExplore introduce un Trajectory Tree que registra el linaje completo de los experimentos arquitectónicos y un Hypothesis Memory Bank que rastrea puntuaciones de confianza actualizadas con evidencia ponderada después de cada experimento.
El sistema descubrió GSTN, una arquitectura de 0.9M de parámetros que alcanza el 94.11% en CIFAR-10 y generaliza al 72.6% en CIFAR-100 y al 58.1% en Tiny-ImageNet sin cambios arquitectónicos adicionales.
Una ejecución independiente de descubrimiento en DermalMNIST produjo una arquitectura que alcanza el 82.1% en DermalMNIST y el 73.9% en TissueMNIST, lo que los autores reportan como estado del arte en esas dos tareas entre los métodos comparados.
Los experimentos de ablación muestran que eliminar cualquiera de los componentes —la búsqueda impulsada por hipótesis, la retroalimentación multiagente, la selección de hipótesis o la selección de nodo padre— hace que el sistema se estanque por debajo del techo del 94.1% del sistema completo.
El artículo demuestra que las puntuaciones de confianza de las hipótesis se calibran cada vez mejor con los resultados experimentales reales a medida que se acumula evidencia, y que el número de hipótesis validadas evoluciona conjuntamente con las mejoras de precisión a lo largo de la búsqueda de 50 iteraciones.

Limitaciones y advertencias

La evaluación actual se centra en CIFAR-10, CIFAR-100, Tiny-ImageNet y MedMNIST en lugar de un entrenamiento a la escala completa de ImageNet; esto deja margen para que trabajos futuros comprueben si las mismas ventajas de la búsqueda impulsada por hipótesis se trasladan a entornos de reconocimiento visual de mayor escala.
El marco utiliza GPT-4o-mini para todos los roles de agente, por lo que la reproducibilidad y el costo de despliegue dependen en parte del acceso a APIs de LLM capaces; al mismo tiempo, el Trajectory Tree y el Hypothesis Memory Bank explícitos del artículo hacen que el proceso de razonamiento sea más inspeccionable que muchas tuberías de búsqueda de caja negra.
El presupuesto de búsqueda es de 50 iteraciones a partir de 5 arquitecturas raíz, por lo que se necesitarían experimentos adicionales para mapear el comportamiento de escalado del método; no obstante, las sólidas ganancias logradas dentro de este presupuesto modesto son una señal útil de que la estrategia de búsqueda es eficiente.
La comparación en MedMNIST no es perfectamente uniforme porque varias líneas base reportan solo algunas tareas, pero la ejecución independiente de descubrimiento aún proporciona evidencia alentadora de que HypoExplore puede adaptarse más allá de los benchmarks de imágenes naturales al estilo de CIFAR.
El artículo demuestra la clasificación de imágenes en lugar de la detección, la segmentación o dominios no visuales, por lo que esas aplicaciones quedan abiertas; la evidencia de transferencia de hipótesis entre linajes hace que esa extensión sea plausible y digna de investigación.

Cómo interpretar este resultado

Este artículo se lee mejor como un paso prometedor e inusualmente interpretable hacia el descubrimiento científico agéntico para el reconocimiento visual: sus limitaciones son reales, especialmente en torno a la validación a mayor escala, pero las ganancias de precisión reportadas, la evidencia de transferencia de hipótesis y las arquitecturas compactas descubiertas hacen de este trabajo una contribución positiva sólida.