XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

Mohammad Rastegari; Vicente Ordonez; Joseph Redmon; Ali Farhadi

← quay lại danh sách công bố

publication

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi.

European Conference on Computer Vision. ECCV 2016. Amsterdam, The Netherlands. October 2016.

bài báo project page code pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Allen Institute for AI và University of Washington đã phát triển một cách để thu nhỏ và tăng tốc đáng kể các mạng nơ-ron nhận dạng ảnh vốn thường yêu cầu các GPU đắt đỏ, ngốn điện để chạy. Nhóm nghiên cứu, do Mohammad Rastegari và Ali Farhadi dẫn dắt, đã giải quyết một vấn đề đơn giản nhưng có hệ quả lớn: các mạng nơ-ron tích chập tiêu chuẩn lưu trữ các tham số nội bộ của chúng dưới dạng số dấu phẩy động 32-bit và thực hiện hàng tỷ phép nhân có độ chính xác cao để phân loại một ảnh duy nhất, khiến chúng không thực tế cho điện thoại thông minh và các thiết bị bị hạn chế tài nguyên khác. Giải pháp của họ, được mô tả trong một bài báo về hai cách tiếp cận liên quan gọi là Binary-Weight-Networks và XNOR-Networks, thay thế các số có độ chính xác đầy đủ đó bằng các bit đơn lẻ — về cơ bản chỉ là cộng một hoặc trừ một — và thay các phép nhân-cộng dồn (multiply-accumulate) đắt đỏ bằng các lệnh XNOR và đếm bit nhanh mà các CPU hiện đại xử lý hiệu quả. Phiên bản trọng số nhị phân cắt giảm sử dụng bộ nhớ khoảng 32 lần và đạt độ chính xác độ chính xác đầy đủ ngang bằng AlexNet tiêu chuẩn trên benchmark quy mô lớn ImageNet, trong khi XNOR-Net quyết liệt hơn, vốn nhị phân hóa cả các bộ lọc được lưu trữ lẫn dữ liệu chảy qua mạng, đạt các phép toán tích chập nhanh hơn khoảng 58 lần với cái giá là một số độ chính xác. Quan trọng là, các nhà nghiên cứu đã giới thiệu một hệ số tỷ lệ đơn giản — về cơ bản là độ lớn trung bình của các trọng số gốc — bù đắp một phần cho thông tin bị mất trong quá trình nhị phân hóa, và họ cho thấy chi tiết này chính là điều phân biệt kết quả của họ với các nỗ lực nhị phân hóa trước đó, vốn tụt lại phía sau hơn 16 điểm phần trăm về độ chính xác top-1 trên ImageNet. Hệ quả thực tiễn là các mô hình nhận dạng ảnh có năng lực có thể chạy trong thời gian thực trên các CPU thông thường trong điện thoại hoặc thiết bị đeo, mà không cần chuyển tải lên đám mây hoặc phần cứng chuyên dụng.

tóm tắt

Chúng tôi đề xuất hai phép xấp xỉ hiệu quả cho các mạng nơ-ron tích chập tiêu chuẩn: Binary-Weight-Networks và XNOR-Networks. Trong Binary-Weight-Networks, các bộ lọc được xấp xỉ bằng các giá trị nhị phân, mang lại tiết kiệm bộ nhớ 32 lần. Trong XNOR-Networks, cả các bộ lọc lẫn đầu vào của các lớp tích chập đều là nhị phân. XNOR-Networks xấp xỉ các phép tích chập chủ yếu bằng các phép toán nhị phân. Điều này mang lại các phép toán tích chập nhanh hơn 58 lần và tiết kiệm bộ nhớ 32 lần. XNOR-Nets mở ra khả năng chạy các mạng tốt nhất hiện nay trên CPU (thay vì GPU) trong thời gian thực. Các mạng nhị phân của chúng tôi đơn giản, chính xác, hiệu quả, và hoạt động trên các tác vụ trực quan thách thức. Chúng tôi đánh giá cách tiếp cận của mình trên tác vụ phân loại ImageNet. Độ chính xác phân loại với một phiên bản Binary-Weight-Network của AlexNet chỉ thấp hơn 2.9% so với AlexNet độ chính xác đầy đủ (theo thước đo top-1). Chúng tôi so sánh phương pháp của mình với các phương pháp nhị phân hóa mạng gần đây, BinaryConnect và BinaryNets, và vượt trội hơn các phương pháp này với khoảng cách lớn trên ImageNet, hơn 16% về độ chính xác top-1.

trích dẫn

@inproceedings{rastegari2016xnor,
  title = {XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks},
  author = {Rastegari, Mohammad and Ordonez, Vicente and Redmon, Joseph and Farhadi, Ali},
  year = {2016},
  booktitle = {European Conference on Computer Vision. ECCV 2016},
  url = {http://arxiv.org/abs/1603.05279},
}