Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← torna alle pubblicazioni

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University hanno sviluppato un sistema chiamato HypoExplore che automatizza il processo di progettazione di architetture di reti neurali per il riconoscimento delle immagini trattando la ricerca come un esperimento scientifico strutturato anziché come una cieca successione di tentativi ed errori. Il problema centrale che il sistema affronta è che trovare buone architetture neurali per compiti specializzati — come l'imaging medico — richiede ancora tipicamente notevole competenza umana e ripetute iterazioni manuali. Invece di partire da una rete esistente e modificarla, HypoExplore parte da zero con solo una direzione di ricerca di alto livello, utilizzando un large language model per generare idee architetturali formulate come ipotesi esplicite e verificabili. Il sistema traccia ogni esperimento in una struttura ad albero ramificata e mantiene una banca di memoria che registra quanta evidenza si è accumulata a favore o contro ciascuna ipotesi, usando quei punteggi di confidenza per guidare cosa provare in seguito — bilanciando lo sfruttamento delle idee che hanno funzionato con l'esplorazione di quelle incerte. Eseguito su CIFAR-10, il sistema è evoluto da un'accuratezza iniziale del 18,91% al 94,11% nell'arco di 50 iterazioni, scoprendo infine un'architettura compatta da 0,9 milioni di parametri chiamata Global Shape Token Network che ha eguagliato o superato diverse note reti progettate manualmente utilizzando molti meno parametri. Il sistema ha inoltre raggiunto risultati allo stato dell'arte su benchmark di imaging medico quando eseguito in modo indipendente su quel dominio. In particolare, i ricercatori hanno mostrato che i punteggi di confidenza delle ipotesi sono diventati genuinamente predittivi nel tempo — le ipotesi ad alta confidenza prevedevano correttamente gli esiti sperimentali nell'80% dei casi — suggerendo che il sistema stava costruendo una conoscenza reale e trasferibile sulla progettazione di architetture anziché limitarsi a imbattersi per caso in buone soluzioni.

abstract

Presentiamo HypoExplore, un framework agentico che formula la scoperta di architetture neurali per il riconoscimento visivo come un'indagine scientifica guidata da ipotesi. Data una direzione di ricerca di alto livello specificata da un essere umano, HypoExplore concepisce, implementa, valuta e migliora architetture neurali attraverso una ramificazione evolutiva. Nuove ipotesi vengono create utilizzando un large language model selezionando un'ipotesi genitrice su cui costruire, guidato da una doppia strategia che bilancia lo sfruttamento dei principi validati con la risoluzione di quelli incerti. Il framework che proponiamo mantiene un Trajectory Tree che registra la discendenza di tutte le architetture proposte e un Hypothesis Memory Bank che traccia attivamente i punteggi di confidenza acquisiti attraverso l'evidenza sperimentale. Dopo ogni esperimento, più agenti di feedback analizzano i risultati da prospettive diverse e consolidano le loro conclusioni in aggiornamenti della confidenza delle ipotesi. Il nostro framework è testato sulla scoperta di architetture di visione leggere su CIFAR-10, dove la migliore raggiunge un'accuratezza del 94,11% evolvendo da una baseline del nodo radice che parte dal 18,91%, e generalizza a CIFAR-100 e Tiny-ImageNet. Dimostriamo inoltre l'applicabilità a un dominio specializzato conducendo esecuzioni indipendenti di scoperta di architetture su MedMNIST, che producono prestazioni allo stato dell'arte. Mostriamo che i punteggi di confidenza delle ipotesi diventano sempre più predittivi man mano che l'evidenza si accumula, e che i principi appresi si trasferiscono tra discendenze evolutive indipendenti, suggerendo che HypoExplore non solo scopre architetture più robuste, ma può contribuire a costruire una genuina comprensione dello spazio di progettazione.

citazione

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

domande, principali contributi e limiti di questo articolo generati automaticamente

Domande a cui questo articolo aiuta a rispondere

Che cos'è HypoExplore e quale problema affronta? HypoExplore è un framework multi-agente basato su LLM per la scoperta automatizzata di architetture neurali che inquadra l'esplorazione progettuale come un'indagine scientifica guidata da ipotesi, con l'obiettivo di ridurre la ridondanza e la miopia rispetto ai precedenti sistemi di ricerca di architetture.
Quale accuratezza ha raggiunto HypoExplore su CIFAR-10 e come si confronta con le baseline? La migliore architettura scoperta, GSTN con 0,9 M di parametri, ha raggiunto un'accuratezza top-1 del 94,11% su CIFAR-10, superando ShuffleNet V2 al 90,1% e SqueezeNet al 91,1% con meno parametri, pur restando al di sotto di MobileNet V3 al 95,5% e ResNet-18 al 95,4%.
Come fa HypoExplore a selezionare quale architettura sviluppare in seguito? Utilizza una strategia di selezione a due stadi: un selettore di nodi genitori assegna un punteggio ai rami combinando l'accuratezza di validazione e l'efficienza di addestramento con una misura delle ipotesi rimaste non testate, e un selettore di ipotesi bilancia lo sfruttamento tramite Thompson sampling con l'esplorazione tramite un punteggio di incertezza epistemica.
Il sistema di punteggio della confidenza delle ipotesi produce previsioni significative? Sì, l'articolo riporta che l'accuratezza delle previsioni aumenta in modo monotono con l'intervallo di confidenza: 58% per l'intervallo di confidenza da 0,25 a 0,5, 65% da 0,5 a 0,75 e 80% da 0,75 a 1,0, tutti al di sopra della baseline casuale del 50%.
I principi scoperti in una discendenza architetturale possono trasferirsi ad altre? L'articolo riporta che le applicazioni di ipotesi tra discendenze diverse hanno avuto successo nel 65% dei casi su 171 casi, un valore paragonabile al successo all'interno della stessa discendenza, pari al 57% su 93 casi, suggerendo che i principi appresi non sono specifici di una singola discendenza.

Principali contributi

HypoExplore introduce un Trajectory Tree che registra l'intera discendenza degli esperimenti architetturali e un Hypothesis Memory Bank che traccia i punteggi di confidenza aggiornati con evidenza ponderata dopo ogni esperimento.
Il sistema ha scoperto GSTN, un'architettura da 0,9 M di parametri che raggiunge il 94,11% su CIFAR-10 e generalizza al 72,6% su CIFAR-100 e al 58,1% su Tiny-ImageNet senza ulteriori modifiche all'architettura.
Un'esecuzione di scoperta indipendente su DermalMNIST ha prodotto un'architettura che raggiunge l'82,1% su DermalMNIST e il 73,9% su TissueMNIST, valori che gli autori riportano come stato dell'arte su questi due compiti tra i metodi confrontati.
Gli esperimenti di ablazione mostrano che rimuovere uno qualsiasi tra la ricerca guidata da ipotesi, il feedback multi-agente, la selezione delle ipotesi o la selezione dei genitori fa stabilizzare il sistema al di sotto del tetto del 94,1% raggiunto dal sistema completo.
L'articolo dimostra che i punteggi di confidenza delle ipotesi diventano sempre più calibrati rispetto agli esiti sperimentali effettivi man mano che l'evidenza si accumula, e che il numero di ipotesi validate si muove di pari passo con i guadagni di accuratezza nel corso della ricerca di 50 iterazioni.

Limiti e avvertenze

La valutazione attuale si concentra su CIFAR-10, CIFAR-100, Tiny-ImageNet e MedMNIST anziché su un addestramento alla scala completa di ImageNet; ciò lascia spazio a lavori futuri per verificare se gli stessi vantaggi della ricerca guidata da ipotesi si trasferiscano a contesti di riconoscimento visivo più ampi.
Il framework utilizza GPT-4o-mini per tutti i ruoli degli agenti, perciò la riproducibilità e il costo di implementazione dipendono in parte dall'accesso a API LLM all'altezza; allo stesso tempo, l'esplicito Trajectory Tree e l'Hypothesis Memory Bank dell'articolo rendono il processo di ragionamento più ispezionabile di molte pipeline di ricerca a scatola nera.
Il budget di ricerca è di 50 iterazioni a partire da 5 architetture radice, perciò sarebbero necessari ulteriori esperimenti per mappare il comportamento di scalabilità del metodo; i forti guadagni ottenuti entro questo budget modesto sono comunque un utile segnale dell'efficienza della strategia di ricerca.
Il confronto su MedMNIST non è perfettamente uniforme perché diverse baseline riportano solo alcuni compiti, ma l'esecuzione di scoperta indipendente fornisce comunque evidenze incoraggianti del fatto che HypoExplore possa adattarsi al di là dei benchmark di immagini naturali in stile CIFAR.
L'articolo dimostra la classificazione di immagini anziché il rilevamento, la segmentazione o domini non visivi, perciò queste applicazioni restano aperte; l'evidenza che le ipotesi si trasferiscono tra discendenze rende tale estensione plausibile e meritevole di indagine.

Come interpretare questo risultato

Questo articolo è meglio interpretato come un passo promettente e insolitamente interpretabile verso la scoperta scientifica agentica per il riconoscimento visivo: i suoi limiti sono reali, soprattutto in relazione alla validazione su larga scala, ma i guadagni di accuratezza riportati, l'evidenza di ipotesi trasferibili e le architetture compatte scoperte rendono questo lavoro un solido contributo positivo.