Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← quay lại danh sách công bố

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

bài báo github pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Rice University và Google DeepMind đã phát triển GenLLaVA, một hệ thống AI đa phương thức có thể hiểu ảnh, tạo ra các bức ảnh mới và chỉnh sửa các bức ảnh hiện có mà không mất hiệu suất ở bất kỳ khả năng riêng lẻ nào — một thách thức dai dẳng trong lĩnh vực này. Nhóm đã kết hợp ba mô hình AI hiện có thông qua một cách tiếp cận huấn luyện một giai đoạn mới sử dụng dữ liệu chỉ dẫn được tạo ra tự động từ GPT-4V, thay vì quy trình nhiều giai đoạn truyền thống. Kiểm tra cho thấy GenLLaVA vượt trội hơn các mô hình tương tự như GILL và Unified-IO 2 trên các benchmark hiểu trực quan trong khi vẫn duy trì chất lượng tạo ảnh cạnh tranh. Bước đột phá này chứng minh rằng các hệ thống AI có thể cân bằng thành công nhiều khả năng trực quan cùng một lúc, mở đường cho các trợ lý số đa năng hơn có thể xử lý các tác vụ trực quan đa dạng từ việc trả lời

tóm tắt

Chúng tôi đề xuất sử dụng dữ liệu tuân theo chỉ dẫn (instruction-following) được tạo ra tự động để cải thiện các khả năng zero-shot của một mô hình đa phương thức lớn với hỗ trợ bổ sung cho các tác vụ tạo sinh và chỉnh sửa ảnh. Chúng tôi đạt được điều này bằng cách tuyển chọn một tập tuân theo chỉ dẫn đa phương thức mới sử dụng GPT-4V và các bộ dữ liệu hiện có cho việc tạo và chỉnh sửa ảnh. Sử dụng tập chỉ dẫn này và tập chỉ dẫn LLaVA-Finetune hiện có cho các tác vụ hiểu trực quan, chúng tôi tạo ra GenLLaVA, một Trợ lý Ngôn ngữ và Trực quan Lớn có khả năng Tạo sinh (Generative Large Language and Visual Assistant). GenLLaVA được xây dựng thông qua một chiến lược kết hợp ba loại mô hình lớn được tiền huấn luyện thông qua tinh chỉnh theo chỉ dẫn: Mistral cho mô hình hóa ngôn ngữ, SigLIP cho khớp ảnh-văn bản, và StableDiffusion cho tạo ảnh từ văn bản. Mô hình của chúng tôi thể hiện các khả năng hiểu trực quan vượt trội hơn LLaVA và còn thể hiện các kết quả cạnh tranh với các mô hình đa phương thức nguyên bản (native) như Unified-IO 2, mở đường cho việc xây dựng các trợ lý trực quan đa năng tiên tiến bằng cách tái sử dụng hiệu quả các mô hình đa phương thức hiện có. Chúng tôi mở mã nguồn bộ dữ liệu, codebase và các checkpoint mô hình của mình để thúc đẩy nghiên cứu và ứng dụng sâu hơn trong lĩnh vực này.

chi tiết

ghi chú: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

trích dẫn

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}