Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← 논문 목록으로 돌아가기

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

논문 pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교의 연구진은 이미지 인식을 위한 신경망 아키텍처 설계 과정을, 맹목적인 시행착오가 아니라 체계적인 과학 실험으로 다루어 자동화하는 HypoExplore라는 시스템을 개발하였다. 이 시스템이 다루는 핵심 문제는, 의료 영상과 같은 특수 과제를 위한 우수한 신경망 아키텍처를 찾는 일이 여전히 상당한 인간 전문 지식과 반복적인 수동 작업을 요구한다는 점이다. 기존 네트워크에서 출발하여 이를 변형하는 대신, HypoExplore는 상위 수준의 연구 방향만을 가지고 백지에서 시작하며, 대규모 언어 모델을 사용하여 명시적이고 검증 가능한 가설로 표현된 아키텍처 아이디어를 생성한다. 이 시스템은 모든 실험을 분기하는 트리 구조로 추적하고, 각 가설에 대해 찬성 또는 반대 증거가 얼마나 축적되었는지를 기록하는 메모리 뱅크를 유지하며, 그 신뢰도 점수를 사용해 다음에 무엇을 시도할지 안내한다. 즉, 효과가 있었던 아이디어의 활용과 불확실한 아이디어의 탐색 사이에서 균형을 맞춘다. CIFAR-10에서 실행한 결과, 이 시스템은 50회의 반복을 거치며 18.91%의 시작 정확도에서 94.11%까지 진화하였고, 최종적으로 Global Shape Token Network라는 0.9백만 개의 파라미터를 가진 소형 아키텍처를 발견하였는데, 이는 훨씬 적은 파라미터를 사용하면서도 잘 알려진 여러 수동 설계 네트워크와 동등하거나 그 이상의 성능을 보였다. 이 시스템은 또한 의료 영상 도메인에서 독립적으로 실행했을 때 해당 벤치마크에서 최첨단 결과를 달성하였다. 특히 연구진은 가설 신뢰도 점수가 시간이 지남에 따라 진정으로 예측력을 갖게 됨을 보였는데, 신뢰도가 높은 가설은 80%의 경우에 실험 결과를 정확히 예측하였으며, 이는 이 시스템이 단지 우연히 좋은 해법에 도달한 것이 아니라 아키텍처 설계에 대한 실질적이고 전이 가능한 지식을 구축하고 있었음을 시사한다.

초록

우리는 시각 인식을 위한 신경망 아키텍처 탐색을 가설 주도의 과학적 탐구로 정식화하는 에이전트 기반 프레임워크인 HypoExplore를 소개한다. 사람이 지정한 상위 수준의 연구 방향이 주어지면, HypoExplore는 진화적 분기를 통해 신경망 아키텍처를 구상하고, 구현하고, 평가하고, 개선한다. 새로운 가설은 대규모 언어 모델을 사용하여, 발전시킬 부모 가설을 선택하는 방식으로 생성되며, 이는 검증된 원리를 활용하는 것과 불확실한 원리를 해소하는 것 사이의 균형을 맞추는 이중 전략에 의해 안내된다. 우리가 제안하는 프레임워크는 제안된 모든 아키텍처의 계보를 기록하는 Trajectory Tree와, 실험적 증거를 통해 획득한 신뢰도 점수를 능동적으로 추적하는 Hypothesis Memory Bank를 유지한다. 각 실험 후에는 여러 피드백 에이전트가 서로 다른 관점에서 결과를 분석하고, 그 결과를 통합하여 가설 신뢰도를 갱신한다. 우리의 프레임워크는 CIFAR-10에서 경량 비전 아키텍처를 발견하는 과제로 시험되었으며, 18.91%에서 시작하는 루트 노드 베이스라인으로부터 진화하여 최고 94.11%의 정확도를 달성하였고, CIFAR-100과 Tiny-ImageNet으로도 일반화된다. 우리는 또한 MedMNIST에서 독립적인 아키텍처 발견 실행을 수행하여 최첨단 성능을 산출함으로써 특수 도메인으로의 적용 가능성을 입증한다. 우리는 가설 신뢰도 점수가 증거가 축적됨에 따라 점점 더 예측력을 갖게 되고, 학습된 원리가 독립적인 진화 계보 전반에 걸쳐 전이됨을 보이며, 이는 HypoExplore가 단지 더 강력한 아키텍처를 발견할 뿐만 아니라 설계 공간에 대한 진정한 이해를 구축하는 데 도움이 될 수 있음을 시사한다.

인용

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

이 논문의 자동 생성된 질문, 주요 기여 및 한계

이 논문이 답하는 데 도움이 되는 질문

HypoExplore란 무엇이며 어떤 문제를 다루는가? HypoExplore는 자동화된 신경망 아키텍처 발견을 위한 다중 에이전트 LLM 기반 프레임워크로, 설계 탐색을 가설 주도의 과학적 탐구로 정식화하여 기존 아키텍처 탐색 시스템에 비해 중복성과 근시안성을 줄이는 것을 목표로 한다.
HypoExplore는 CIFAR-10에서 어떤 정확도를 달성했으며 베이스라인과 비교하면 어떠한가? 발견된 최고의 아키텍처인 0.9M 파라미터의 GSTN은 CIFAR-10에서 94.11%의 top-1 정확도에 도달하여, 더 적은 파라미터로 ShuffleNet V2(90.1%)와 SqueezeNet(91.1%)을 능가했으나, MobileNet V3(95.5%)와 ResNet-18(95.4%)에는 미치지 못하였다.
HypoExplore는 다음에 어떤 아키텍처를 발전시킬지 어떻게 선택하는가? 이 시스템은 2단계 선택 전략을 사용한다. 부모 노드 선택기는 검증 정확도와 학습 효율을 결합하고 남아 있는 미검증 가설의 척도와 함께 분기에 점수를 매기며, 가설 선택기는 Thompson 샘플링을 통한 활용과 인식론적 불확실성 점수를 통한 탐색 사이에서 균형을 맞춘다.
가설 신뢰도 점수 체계는 의미 있는 예측을 산출하는가? 그렇다. 논문은 예측 정확도가 신뢰도 구간에 따라 단조롭게 증가함을 보고한다. 0.25에서 0.5 신뢰도 범위에서는 58%, 0.5에서 0.75에서는 65%, 0.75에서 1.0에서는 80%로, 모두 50%의 우연 베이스라인을 상회한다.
한 아키텍처 계보에서 발견된 원리가 다른 계보로 전이될 수 있는가? 논문은 계보 간 가설 적용이 171건 중 65%의 경우에 성공하였으며, 이는 93건 중 57%인 계보 내 성공률과 비슷한 수준으로, 학습된 원리가 계보에 특정되지 않음을 시사한다고 보고한다.

주요 기여

HypoExplore는 아키텍처 실험의 전체 계보를 기록하는 Trajectory Tree와, 각 실험 후 가중된 증거로 갱신되는 신뢰도 점수를 추적하는 Hypothesis Memory Bank를 도입한다.
이 시스템은 CIFAR-10에서 94.11%에 도달하는 0.9M 파라미터 아키텍처인 GSTN을 발견하였으며, 추가적인 아키텍처 변경 없이 CIFAR-100에서 72.6%, Tiny-ImageNet에서 58.1%로 일반화된다.
DermalMNIST에서의 독립적인 발견 실행은 DermalMNIST에서 82.1%, TissueMNIST에서 73.9%를 달성하는 아키텍처를 산출하였으며, 저자들은 이를 비교된 방법들 가운데 해당 두 과제에서 최첨단으로 보고한다.
절제 실험은 가설 주도 탐색, 다중 에이전트 피드백, 가설 선택, 부모 선택 중 어느 하나라도 제거하면 시스템이 전체 시스템의 94.1% 상한선 아래에서 정체됨을 보인다.
논문은 가설 신뢰도 점수가 증거가 축적됨에 따라 실제 실험 결과에 점점 더 잘 보정됨을 입증하며, 검증된 가설 수가 50회 반복 탐색에 걸쳐 정확도 향상과 함께 움직임을 보인다.

한계 및 유의 사항

현재 평가는 전체 ImageNet 규모의 학습이 아니라 CIFAR-10, CIFAR-100, Tiny-ImageNet, MedMNIST에 초점을 맞추고 있으며, 이는 동일한 가설 주도 탐색의 이점이 더 큰 규모의 시각 인식 환경으로 이어지는지를 시험하는 향후 연구의 여지를 남긴다.
이 프레임워크는 모든 에이전트 역할에 GPT-4o-mini를 사용하므로, 재현성과 배포 비용은 부분적으로 유능한 LLM API에 대한 접근에 의존한다. 동시에 논문의 명시적인 Trajectory Tree와 Hypothesis Memory Bank는 많은 블랙박스 탐색 파이프라인보다 추론 과정을 더 검사 가능하게 만든다.
탐색 예산은 5개의 루트 아키텍처에서 50회 반복이므로, 이 방법의 확장 거동을 매핑하려면 추가 실험이 필요할 것이다. 그럼에도 이 적당한 예산 내에서 달성된 강력한 성과는 탐색 전략이 효율적이라는 유용한 신호이다.
여러 베이스라인이 일부 과제만 보고하기 때문에 MedMNIST 비교가 완벽하게 일관되지는 않지만, 독립적인 발견 실행은 HypoExplore가 CIFAR 스타일의 자연 이미지 벤치마크를 넘어 적응할 수 있다는 고무적인 증거를 여전히 제공한다.
논문은 탐지, 분할, 또는 비전이 아닌 도메인이 아니라 이미지 분류를 입증하므로, 그러한 응용은 여전히 열린 과제로 남아 있다. 계보 전반에 걸친 전이 가능한 가설 증거는 그러한 확장을 그럴듯하고 탐구할 가치가 있게 만든다.

이 결과를 읽는 방법

이 논문은 시각 인식을 위한 에이전트 기반 과학적 발견을 향한 유망하고 이례적으로 해석 가능한 한 걸음으로 읽는 것이 가장 좋다. 특히 더 큰 규모의 검증과 관련하여 한계는 실재하지만, 보고된 정확도 향상, 계보 전반에 걸친 전이 가능한 가설 증거, 그리고 발견된 소형 아키텍처는 이 연구를 강력한 긍정적 기여로 만든다.