Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← voltar às publicações

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University desenvolveram um sistema chamado HypoExplore que automatiza o processo de projetar arquiteturas de redes neurais para reconhecimento de imagens ao tratar a busca como um experimento científico estruturado, em vez de tentativa e erro às cegas. O problema central que o sistema aborda é que encontrar boas arquiteturas neurais para tarefas especializadas — como imageamento médico — ainda normalmente exige considerável expertise humana e iteração manual repetida. Em vez de partir de uma rede existente e ajustá-la, o HypoExplore começa do zero apenas com uma direção de pesquisa de alto nível, usando um modelo de linguagem de grande porte para gerar ideias arquiteturais formuladas como hipóteses explícitas e testáveis. O sistema rastreia cada experimento em uma estrutura de árvore ramificada e mantém um banco de memória que registra quanta evidência se acumulou a favor ou contra cada hipótese, usando esses escores de confiança para orientar o que tentar em seguida — equilibrando a exploração de ideias que funcionaram com a investigação de ideias incertas. Executando no CIFAR-10, o sistema evoluiu de uma acurácia inicial de 18,91% para 94,11% ao longo de 50 iterações, descobrindo por fim uma arquitetura compacta de 0,9 milhão de parâmetros chamada Global Shape Token Network, que igualou ou superou várias redes bem conhecidas projetadas manualmente, usando muito menos parâmetros. O sistema também alcançou resultados de ponta em benchmarks de imageamento médico quando executado de forma independente nesse domínio. Notavelmente, os pesquisadores mostraram que os escores de confiança das hipóteses se tornaram genuinamente preditivos ao longo do tempo — hipóteses de alta confiança previram corretamente os resultados experimentais 80% das vezes — sugerindo que o sistema estava construindo conhecimento real e transferível sobre projeto de arquiteturas, em vez de simplesmente tropeçar em boas soluções.

resumo

Apresentamos o HypoExplore, um arcabouço agêntico que formula a descoberta de arquiteturas neurais para reconhecimento visual como uma investigação científica guiada por hipóteses. Dada uma direção de pesquisa de alto nível especificada por humanos, o HypoExplore concebe, implementa, avalia e aprimora arquiteturas neurais por meio de ramificação evolutiva. Novas hipóteses são criadas usando um modelo de linguagem de grande porte ao selecionar uma hipótese-pai sobre a qual construir, guiado por uma estratégia dupla que equilibra a exploração de princípios validados com a resolução de princípios incertos. Nosso arcabouço proposto mantém uma Árvore de Trajetórias que registra a linhagem de todas as arquiteturas propostas, e um Banco de Memória de Hipóteses que rastreia ativamente os escores de confiança adquiridos por meio de evidências experimentais. Após cada experimento, múltiplos agentes de feedback analisam os resultados sob diferentes perspectivas e consolidam suas constatações em atualizações de confiança das hipóteses. Nosso arcabouço é testado na descoberta de arquiteturas de visão leves no CIFAR-10, com a melhor atingindo 94,11% de acurácia, evoluída a partir de uma linha de base de nó raiz que começa em 18,91%, e generaliza para CIFAR-100 e Tiny-ImageNet. Demonstramos ainda sua aplicabilidade a um domínio especializado por meio de execuções independentes de descoberta de arquiteturas no MedMNIST, que produzem um desempenho de ponta. Mostramos que os escores de confiança das hipóteses se tornam cada vez mais preditivos à medida que as evidências se acumulam, e que os princípios aprendidos se transferem entre linhagens evolutivas independentes, sugerindo que o HypoExplore não apenas descobre arquiteturas mais fortes, mas também pode ajudar a construir uma compreensão genuína do espaço de projeto.

citação

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

perguntas, principais contribuições e limitações deste artigo geradas automaticamente

Perguntas que este artigo ajuda a responder

O que é o HypoExplore e qual problema ele aborda? O HypoExplore é um arcabouço multiagente baseado em LLM para descoberta automatizada de arquiteturas neurais que enquadra a exploração de projeto como uma investigação científica guiada por hipóteses, visando reduzir a redundância e a miopia em comparação com sistemas anteriores de busca de arquiteturas.
Qual acurácia o HypoExplore alcançou no CIFAR-10 e como ela se compara às linhas de base? A melhor arquitetura descoberta, a GSTN com 0,9M de parâmetros, atingiu 94,11% de acurácia top-1 no CIFAR-10, superando a ShuffleNet V2 com 90,1% e a SqueezeNet com 91,1% usando menos parâmetros, embora tenha ficado aquém da MobileNet V3 com 95,5% e da ResNet-18 com 95,4%.
Como o HypoExplore seleciona qual arquitetura desenvolver em seguida? Ele usa uma estratégia de seleção em dois estágios: um seletor de nó-pai pontua os ramos combinando acurácia de validação e eficiência de treinamento com uma medida de hipóteses ainda não testadas, e um seletor de hipóteses equilibra a exploração via amostragem de Thompson com a investigação via um escore de incerteza epistêmica.
O sistema de escores de confiança das hipóteses produz previsões significativas? Sim, o artigo relata que a acurácia das previsões aumenta monotonicamente com a faixa de confiança: 58% para a faixa de confiança de 0,25 a 0,5, 65% para 0,5 a 0,75, e 80% para 0,75 a 1,0, todas acima da linha de base aleatória de 50%.
Os princípios descobertos em uma linhagem arquitetural podem se transferir para outras? O artigo relata que aplicações de hipóteses entre linhagens tiveram sucesso em 65% das vezes ao longo de 171 casos, comparável ao sucesso dentro da mesma linhagem de 57% ao longo de 93 casos, sugerindo que os princípios aprendidos não são específicos de linhagem.

Principais contribuições

O HypoExplore introduz uma Árvore de Trajetórias que registra a linhagem completa dos experimentos arquiteturais e um Banco de Memória de Hipóteses que rastreia escores de confiança atualizados com evidências ponderadas após cada experimento.
O sistema descobriu a GSTN, uma arquitetura de 0,9M de parâmetros que atinge 94,11% no CIFAR-10 e que generaliza para 72,6% no CIFAR-100 e 58,1% no Tiny-ImageNet sem alterações arquiteturais adicionais.
Uma execução independente de descoberta no DermalMNIST produziu uma arquitetura que atinge 82,1% no DermalMNIST e 73,9% no TissueMNIST, que os autores relatam como estado da arte nessas duas tarefas entre os métodos comparados.
Experimentos de ablação mostram que remover qualquer um dos componentes — busca guiada por hipóteses, feedback multiagente, seleção de hipóteses ou seleção de nó-pai — faz com que o sistema estabilize abaixo do teto de 94,1% do sistema completo.
O artigo demonstra que os escores de confiança das hipóteses se tornam cada vez mais calibrados aos resultados experimentais reais à medida que as evidências se acumulam, e que a contagem de hipóteses validadas acompanha os ganhos de acurácia ao longo da busca de 50 iterações.

Limitações e ressalvas

A avaliação atual concentra-se no CIFAR-10, CIFAR-100, Tiny-ImageNet e MedMNIST, em vez de treinamento em escala completa do ImageNet; isso deixa espaço para que trabalhos futuros testem se as mesmas vantagens da busca guiada por hipóteses se mantêm em cenários maiores de reconhecimento visual.
O arcabouço usa o GPT-4o-mini para todos os papéis de agente, de modo que a reprodutibilidade e o custo de implantação dependem em parte do acesso a APIs de LLM capazes; ao mesmo tempo, a Árvore de Trajetórias explícita e o Banco de Memória de Hipóteses do artigo tornam o processo de raciocínio mais inspecionável do que muitos pipelines de busca do tipo caixa-preta.
O orçamento de busca é de 50 iterações a partir de 5 arquiteturas raiz, de modo que experimentos adicionais seriam necessários para mapear o comportamento de escalabilidade do método; os fortes ganhos alcançados dentro desse orçamento modesto são, ainda assim, um sinal útil de que a estratégia de busca é eficiente.
A comparação no MedMNIST não é perfeitamente uniforme porque várias linhas de base relatam apenas algumas tarefas, mas a execução independente de descoberta ainda fornece evidências encorajadoras de que o HypoExplore pode se adaptar para além de benchmarks de imagens naturais ao estilo CIFAR.
O artigo demonstra classificação de imagens, em vez de detecção, segmentação ou domínios não visuais, de modo que essas aplicações permanecem em aberto; a evidência de hipóteses transferíveis entre linhagens torna essa extensão plausível e digna de investigação.

Como interpretar este resultado

Este artigo é mais bem compreendido como um passo promissor e excepcionalmente interpretável em direção à descoberta científica agêntica para reconhecimento visual: suas limitações são reais, especialmente em torno da validação em maior escala, mas os ganhos de acurácia relatados, as evidências de hipóteses transferíveis e as arquiteturas compactas descobertas tornam o trabalho uma forte contribuição positiva.