Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← назад к публикациям

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University разработали систему под названием HypoExplore, которая автоматизирует процесс проектирования архитектур нейронных сетей для распознавания изображений, рассматривая поиск как структурированный научный эксперимент, а не как слепой перебор методом проб и ошибок. Главная проблема, которую решает система, состоит в том, что нахождение хороших нейронных архитектур для специализированных задач — например, для медицинской визуализации — по-прежнему обычно требует значительного экспертного опыта человека и многократных ручных итераций. Вместо того чтобы отталкиваться от существующей сети и подстраивать её, HypoExplore начинает с нуля, имея лишь высокоуровневое направление исследования, и использует большую языковую модель для генерации архитектурных идей, сформулированных как явные проверяемые гипотезы. Система фиксирует каждый эксперимент в виде ветвящейся древовидной структуры и поддерживает банк памяти, который записывает, сколько данных накопилось за или против каждой гипотезы, используя эти оценки уверенности для определения того, что пробовать дальше, — балансируя между использованием идей, которые сработали, и исследованием неопределённых. Работая на CIFAR-10, система за 50 итераций эволюционировала от стартовой точности 18,91% до 94,11%, в итоге обнаружив компактную архитектуру с 0,9 миллиона параметров под названием Global Shape Token Network, которая сравнялась с несколькими известными вручную спроектированными сетями или превзошла их, используя при этом гораздо меньше параметров. Система также достигла результатов на современном уровне на бенчмарках медицинской визуализации при независимом запуске в этой области. Примечательно, что исследователи показали: оценки уверенности по гипотезам со временем становились по-настоящему прогностичными — гипотезы с высокой уверенностью верно предсказывали исходы экспериментов в 80% случаев, — что говорит о том, что система выстраивала реальное переносимое знание о проектировании архитектур, а не просто случайно натыкалась на хорошие решения.

аннотация

Мы представляем HypoExplore — агентный фреймворк, который формулирует поиск нейронных архитектур для визуального распознавания как научное исследование, управляемое гипотезами. Получив заданное человеком высокоуровневое направление исследования, HypoExplore генерирует идеи, реализует, оценивает и улучшает нейронные архитектуры посредством эволюционного ветвления. Новые гипотезы создаются с помощью большой языковой модели путём выбора родительской гипотезы, на которой строится развитие, под управлением двойной стратегии, балансирующей между использованием подтверждённых принципов и разрешением неопределённых. Предложенный нами фреймворк поддерживает Trajectory Tree, фиксирующее происхождение всех предложенных архитектур, и Hypothesis Memory Bank, активно отслеживающий оценки уверенности, полученные на основе экспериментальных данных. После каждого эксперимента несколько агентов обратной связи анализируют результаты с разных точек зрения и объединяют свои выводы в обновления уверенности по гипотезам. Наш фреймворк протестирован на поиске лёгких архитектур для зрения на CIFAR-10, где лучшая из них достигает точности 94,11%, эволюционировав от базовой модели корневого узла, начинающей с 18,91%, и обобщается на CIFAR-100 и Tiny-ImageNet. Мы дополнительно демонстрируем применимость к специализированной области, проводя независимые запуски поиска архитектур на MedMNIST, которые дают результаты на современном уровне. Мы показываем, что оценки уверенности по гипотезам становятся всё более прогностичными по мере накопления данных, а усвоенные принципы переносятся между независимыми эволюционными линиями, что говорит о том, что HypoExplore не только находит более сильные архитектуры, но и помогает выстроить подлинное понимание пространства проектирования.

цитирование

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое HypoExplore и какую проблему он решает? HypoExplore — это мультиагентный фреймворк на основе LLM для автоматизированного поиска нейронных архитектур, который представляет исследование проектных решений как научное исследование, управляемое гипотезами, стремясь снизить избыточность и близорукость по сравнению с прежними системами поиска архитектур.
Какую точность достиг HypoExplore на CIFAR-10 и как она соотносится с базовыми моделями? Лучшая обнаруженная архитектура, GSTN с 0,9 млн параметров, достигла top-1 точности 94,11% на CIFAR-10, превзойдя ShuffleNet V2 с 90,1% и SqueezeNet с 91,1% при меньшем числе параметров, хотя и уступила MobileNet V3 с 95,5% и ResNet-18 с 95,4%.
Как HypoExplore выбирает, какую архитектуру разрабатывать следующей? Он использует двухэтапную стратегию выбора: селектор родительского узла оценивает ветви, комбинируя точность на валидации и эффективность обучения с мерой оставшихся непроверенных гипотез, а селектор гипотез балансирует использование через Thompson sampling с исследованием через оценку эпистемической неопределённости.
Даёт ли система оценки уверенности по гипотезам осмысленные прогнозы? Да, в статье сообщается, что точность прогноза монотонно растёт с увеличением интервала уверенности: 58% для диапазона уверенности от 0,25 до 0,5, 65% для 0,5–0,75 и 80% для 0,75–1,0 — все выше базового уровня случайного угадывания в 50%.
Могут ли принципы, открытые в одной архитектурной линии, переноситься на другие? В статье сообщается, что применение гипотез между линиями было успешным в 65% случаев из 171, что сопоставимо с успешностью внутри линии — 57% из 93 случаев, — и говорит о том, что усвоенные принципы не привязаны к конкретной линии.

Основные вклады

HypoExplore вводит Trajectory Tree, которое фиксирует полное происхождение архитектурных экспериментов, и Hypothesis Memory Bank, который отслеживает оценки уверенности, обновляемые с учётом взвешенных данных после каждого эксперимента.
Система обнаружила GSTN — архитектуру с 0,9 млн параметров, достигающую 94,11% на CIFAR-10, которая обобщается до 72,6% на CIFAR-100 и 58,1% на Tiny-ImageNet без дополнительных изменений архитектуры.
Независимый запуск поиска на DermalMNIST дал архитектуру, достигающую 82,1% на DermalMNIST и 73,9% на TissueMNIST, что авторы отмечают как современный уровень на этих двух задачах среди сравниваемых методов.
Абляционные эксперименты показывают, что удаление любого из компонентов — управляемого гипотезами поиска, мультиагентной обратной связи, выбора гипотез или выбора родителя — приводит к тому, что система выходит на плато ниже потолка полной системы в 94,1%.
Статья демонстрирует, что оценки уверенности по гипотезам становятся всё более откалиброванными относительно реальных исходов экспериментов по мере накопления данных, а число подтверждённых гипотез изменяется согласованно с приростом точности на протяжении поиска из 50 итераций.

Ограничения и предостережения

Текущая оценка сосредоточена на CIFAR-10, CIFAR-100, Tiny-ImageNet и MedMNIST, а не на полномасштабном обучении уровня ImageNet; это оставляет простор для будущих работ, чтобы проверить, сохраняются ли те же преимущества управляемого гипотезами поиска в более крупных задачах визуального распознавания.
Фреймворк использует GPT-4o-mini для всех ролей агентов, поэтому воспроизводимость и стоимость развёртывания отчасти зависят от доступа к мощным API для LLM; в то же время явные Trajectory Tree и Hypothesis Memory Bank делают процесс рассуждения более прозрачным для анализа, чем многие непрозрачные конвейеры поиска.
Бюджет поиска составляет 50 итераций от 5 корневых архитектур, поэтому для отображения масштабируемости метода потребовались бы дополнительные эксперименты; тем не менее значительный прирост, достигнутый в рамках этого скромного бюджета, служит полезным сигналом эффективности стратегии поиска.
Сравнение на MedMNIST не вполне единообразно, поскольку несколько базовых методов сообщают результаты лишь по части задач, но независимый запуск поиска всё же даёт обнадёживающее свидетельство того, что HypoExplore может адаптироваться за пределами бенчмарков естественных изображений в стиле CIFAR.
Статья демонстрирует классификацию изображений, а не детекцию, сегментацию или области вне зрения, поэтому эти применения остаются открытыми; переносимость свидетельств по гипотезам между линиями делает такое расширение правдоподобным и заслуживающим изучения.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как многообещающий и необычно интерпретируемый шаг к агентному научному поиску для визуального распознавания: её ограничения реальны, особенно в части проверки на более крупном масштабе, но заявленный прирост точности, переносимость свидетельств по гипотезам и компактность обнаруженных архитектур делают эту работу весомым положительным вкладом.