Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo; Jefferson Hernandez; Ruozhen He; Hanjie Chen; Chen Wei; Vicente Ordonez

← quay lại danh sách công bố

preprint

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

arXiv:2604.12999

bài báo pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Rice University đã phát triển một hệ thống có tên HypoExplore, tự động hóa quá trình thiết kế các kiến trúc mạng nơ-ron cho nhận dạng ảnh bằng cách coi việc tìm kiếm như một thí nghiệm khoa học có cấu trúc thay vì thử-và-sai một cách mù quáng. Vấn đề cốt lõi mà hệ thống giải quyết là việc tìm ra các kiến trúc nơ-ron tốt cho các tác vụ chuyên biệt — như chẩn đoán hình ảnh y khoa — thường vẫn đòi hỏi chuyên môn đáng kể của con người và sự lặp đi lặp lại thủ công. Thay vì bắt đầu từ một mạng có sẵn rồi tinh chỉnh nó, HypoExplore bắt đầu từ con số không chỉ với một định hướng nghiên cứu cấp cao, sử dụng một mô hình ngôn ngữ lớn để tạo ra các ý tưởng kiến trúc được trình bày dưới dạng các giả thuyết tường minh, có thể kiểm chứng. Hệ thống theo dõi mọi thí nghiệm trong một cấu trúc cây phân nhánh và duy trì một ngân hàng ký ức ghi lại lượng bằng chứng đã tích lũy ủng hộ hoặc phản bác mỗi giả thuyết, dùng các điểm tin cậy đó để định hướng cho việc thử nghiệm tiếp theo — cân bằng giữa khai thác các ý tưởng đã hiệu quả với khám phá các ý tưởng còn chưa chắc chắn. Khi chạy trên CIFAR-10, hệ thống đã tiến hóa từ độ chính xác khởi đầu 18.91% lên 94.11% qua 50 vòng lặp, cuối cùng khám phá ra một kiến trúc gọn nhẹ 0.9 triệu tham số có tên Global Shape Token Network, đạt ngang bằng hoặc vượt trội nhiều mạng được thiết kế thủ công nổi tiếng trong khi dùng ít tham số hơn rất nhiều. Hệ thống cũng đạt kết quả tốt nhất hiện nay trên các benchmark chẩn đoán hình ảnh y khoa khi được chạy độc lập trên lĩnh vực đó. Đáng chú ý, các nhà nghiên cứu cho thấy rằng các điểm tin cậy giả thuyết trở nên thực sự có tính dự đoán theo thời gian — các giả thuyết có độ tin cậy cao dự báo đúng kết quả thực nghiệm 80% thời gian — gợi ý rằng hệ thống đang xây dựng kiến thức thực sự có thể chuyển giao về thiết kế kiến trúc thay vì chỉ tình cờ vấp phải các lời giải tốt.

tóm tắt

Chúng tôi giới thiệu HypoExplore, một khung tác tử biến việc khám phá kiến trúc nơ-ron cho nhận dạng thị giác thành một quá trình nghiên cứu khoa học dựa trên giả thuyết. Cho trước một định hướng nghiên cứu cấp cao do con người chỉ định, HypoExplore hình thành ý tưởng, hiện thực hóa, đánh giá và cải thiện các kiến trúc nơ-ron thông qua phân nhánh tiến hóa. Các giả thuyết mới được tạo ra bằng một mô hình ngôn ngữ lớn thông qua việc chọn một giả thuyết cha để phát triển tiếp, được dẫn dắt bởi một chiến lược kép cân bằng giữa việc khai thác các nguyên lý đã được kiểm chứng với việc giải quyết các nguyên lý còn chưa chắc chắn. Khung mà chúng tôi đề xuất duy trì một Trajectory Tree ghi lại phả hệ của tất cả các kiến trúc được đề xuất, và một Hypothesis Memory Bank chủ động theo dõi các điểm tin cậy thu được qua bằng chứng thực nghiệm. Sau mỗi thí nghiệm, nhiều tác tử phản hồi phân tích kết quả từ những góc nhìn khác nhau và tổng hợp các phát hiện của họ thành các cập nhật về độ tin cậy của giả thuyết. Khung của chúng tôi được thử nghiệm trên việc khám phá các kiến trúc thị giác nhẹ trên CIFAR-10, với kết quả tốt nhất đạt độ chính xác 94.11% tiến hóa từ một baseline ở nút gốc bắt đầu ở mức 18.91%, và khái quát hóa sang CIFAR-100 và Tiny-ImageNet. Chúng tôi còn chứng minh khả năng áp dụng cho một lĩnh vực chuyên biệt bằng cách thực hiện các lượt khám phá kiến trúc độc lập trên MedMNIST, mang lại hiệu năng tốt nhất hiện nay. Chúng tôi cho thấy rằng các điểm tin cậy giả thuyết ngày càng có tính dự đoán cao khi bằng chứng tích lũy, và rằng các nguyên lý đã học chuyển giao được giữa các phả hệ tiến hóa độc lập, gợi ý rằng HypoExplore không chỉ khám phá ra các kiến trúc mạnh hơn, mà còn có thể giúp xây dựng một sự hiểu biết thực sự về không gian thiết kế.

trích dẫn

@article{kooagentic,
  title = {Agentic Discovery with Active Hypothesis Exploration for Visual Recognition},
  author = {Koo, Jaywon and Hernandez, Jefferson and He, Ruozhen and Chen, Hanjie and Wei, Chen and Ordonez, Vicente},
  journal = {arXiv preprint arXiv:2604.12999},
  url = {https://arxiv.org/abs/2604.12999},
}

câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động

Câu hỏi mà bài báo này giúp trả lời

HypoExplore là gì và nó giải quyết vấn đề nào? HypoExplore là một khung dựa trên LLM đa tác tử cho việc khám phá kiến trúc nơ-ron tự động, trình bày quá trình khám phá thiết kế như một cuộc nghiên cứu khoa học dựa trên giả thuyết, nhằm giảm sự dư thừa và thiển cận so với các hệ thống tìm kiếm kiến trúc trước đây.
HypoExplore đạt độ chính xác bao nhiêu trên CIFAR-10 và so với các baseline thì thế nào? Kiến trúc tốt nhất được khám phá ra, GSTN với 0.9M tham số, đạt độ chính xác top-1 94.11% trên CIFAR-10, vượt qua ShuffleNet V2 ở mức 90.1% và SqueezeNet ở mức 91.1% với ít tham số hơn, mặc dù kém hơn MobileNet V3 ở mức 95.5% và ResNet-18 ở mức 95.4%.
HypoExplore chọn kiến trúc nào để phát triển tiếp như thế nào? Nó sử dụng một chiến lược chọn lựa hai giai đoạn: một bộ chọn nút cha chấm điểm các nhánh bằng cách kết hợp độ chính xác trên tập kiểm định và hiệu suất huấn luyện với một thước đo về số giả thuyết chưa được kiểm chứng còn lại, và một bộ chọn giả thuyết cân bằng giữa khai thác qua Thompson sampling với khám phá qua một điểm số bất định nhận thức luận.
Hệ thống chấm điểm tin cậy giả thuyết có tạo ra các dự đoán có ý nghĩa không? Có, bài báo cho biết độ chính xác dự đoán tăng đơn điệu theo khoảng tin cậy: 58% cho khoảng tin cậy 0.25 đến 0.5, 65% cho khoảng 0.5 đến 0.75, và 80% cho khoảng 0.75 đến 1.0, tất cả đều cao hơn mức cơ sở ngẫu nhiên 50%.
Các nguyên lý được khám phá trong một phả hệ kiến trúc có thể chuyển giao sang các phả hệ khác không? Bài báo cho biết các lần áp dụng giả thuyết xuyên phả hệ thành công 65% thời gian trên 171 trường hợp, tương đương với tỷ lệ thành công trong cùng phả hệ là 57% trên 93 trường hợp, gợi ý rằng các nguyên lý đã học không bị đặc thù theo phả hệ.

Đóng góp chính

HypoExplore giới thiệu một Trajectory Tree ghi lại toàn bộ phả hệ của các thí nghiệm kiến trúc và một Hypothesis Memory Bank theo dõi các điểm tin cậy được cập nhật bằng bằng chứng có trọng số sau mỗi thí nghiệm.
Hệ thống đã khám phá ra GSTN, một kiến trúc 0.9M tham số đạt 94.11% trên CIFAR-10, khái quát hóa lên 72.6% trên CIFAR-100 và 58.1% trên Tiny-ImageNet mà không cần thay đổi kiến trúc bổ sung.
Một lượt khám phá độc lập trên DermalMNIST đã tạo ra một kiến trúc đạt 82.1% trên DermalMNIST và 73.9% trên TissueMNIST, mà các tác giả cho là tốt nhất hiện nay trên hai tác vụ đó trong số các phương pháp được so sánh.
Các thí nghiệm loại bỏ thành phần cho thấy rằng việc loại bỏ bất kỳ một trong các thành phần tìm kiếm dựa trên giả thuyết, phản hồi đa tác tử, chọn giả thuyết, hay chọn nút cha đều khiến hệ thống chững lại dưới mức trần 94.1% của hệ thống đầy đủ.
Bài báo chứng minh rằng các điểm tin cậy giả thuyết ngày càng được hiệu chỉnh phù hợp với kết quả thực nghiệm thực tế khi bằng chứng tích lũy, và rằng số lượng giả thuyết đã được kiểm chứng biến động cùng chiều với mức tăng độ chính xác qua quá trình tìm kiếm 50 vòng lặp.

Hạn chế và lưu ý

Việc đánh giá hiện tại tập trung vào CIFAR-10, CIFAR-100, Tiny-ImageNet, và MedMNIST thay vì huấn luyện ở quy mô ImageNet đầy đủ; điều này để ngỏ chỗ cho công trình tương lai kiểm tra xem các lợi thế của tìm kiếm dựa trên giả thuyết có chuyển giao sang các bối cảnh nhận dạng thị giác lớn hơn hay không.
Khung sử dụng GPT-4o-mini cho tất cả các vai trò tác tử, nên khả năng tái lập và chi phí triển khai phụ thuộc một phần vào việc tiếp cận các API LLM đủ năng lực; đồng thời, Trajectory Tree và Hypothesis Memory Bank tường minh của bài báo khiến quá trình suy luận dễ kiểm tra hơn nhiều so với các pipeline tìm kiếm hộp đen.
Ngân sách tìm kiếm là 50 vòng lặp từ 5 kiến trúc gốc, nên cần thêm thí nghiệm để vạch ra hành vi mở rộng quy mô của phương pháp; tuy nhiên những mức tăng mạnh đạt được trong ngân sách khiêm tốn này vẫn là một tín hiệu hữu ích cho thấy chiến lược tìm kiếm có hiệu quả.
Phép so sánh trên MedMNIST không hoàn toàn đồng nhất vì một số baseline chỉ báo cáo một vài tác vụ, nhưng lượt khám phá độc lập vẫn cung cấp bằng chứng đáng khích lệ rằng HypoExplore có thể thích ứng vượt ra ngoài các benchmark ảnh tự nhiên kiểu CIFAR.
Bài báo trình bày phân loại ảnh chứ không phải phát hiện đối tượng, phân đoạn, hay các lĩnh vực phi thị giác, nên những ứng dụng đó vẫn còn bỏ ngỏ; bằng chứng giả thuyết có thể chuyển giao giữa các phả hệ khiến phần mở rộng đó trở nên hợp lý và đáng để nghiên cứu.

Cách diễn giải kết quả này

Bài báo này nên được đọc như một bước tiến đầy hứa hẹn và có khả năng diễn giải khác thường hướng tới khám phá khoa học tác tử cho nhận dạng thị giác: các hạn chế của nó là có thật, đặc biệt là xoay quanh việc kiểm chứng ở quy mô lớn hơn, nhưng những mức tăng độ chính xác được báo cáo, bằng chứng giả thuyết có thể chuyển giao, và các kiến trúc gọn nhẹ được khám phá ra khiến công trình này trở thành một đóng góp tích cực mạnh mẽ.