CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning

James Seale Smith; Leonid Karlinsky; Vyshnavi Gutta; Paola Cascante-Bonilla; Donghyun Kim; Assaf Arbelle; Rameswar Panda; Rogerio Feris; Zsolt Kira

publication

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning

James Seale Smith, Leonid Karlinsky, Vyshnavi Gutta, Paola Cascante-Bonilla, Donghyun Kim, Assaf Arbelle, Rameswar Panda, Rogerio Feris, Zsolt Kira.

Conf. on Computer Vision and Pattern Recognition CVPR 2023. Vancouver, Canada.

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Georgia Tech, MIT-IBM Watson AI Lab, Rice University и IBM Research разработали новый подход к устойчивой проблеме в машинном обучении: когда ИИ-модель изучает что-то новое, она склонна забывать то, что уже знала, — явление, называемое катастрофическим забыванием. Существующие обходные пути обычно предполагают хранение старых обучающих данных и их воспроизведение во время будущих сеансов обучения, но такой подход вызывает опасения о конфиденциальности и расходует память. Более новые методы использовали технику промптинга — подачу небольших инструктирующих эмбеддингов в предобученную модель vision transformer — чтобы обойти эти проблемы, но у этих подходов было фундаментальное ограничение: механизм, используемый для выбора того, какой промпт применить, нельзя было обучать полностью связным, сквозным (end-to-end) образом вместе с остальной частью системы, что ограничивало способность модели усваивать действительно новую информацию. Новая система команды, называемая CODA-Prompt, заменяет фиксированный пул промптов набором обучаемых «компонентов промптов», которые смешиваются вместе с использованием весов на основе внимания, обусловленных каждым входным изображением, что позволяет обучать всю систему сквозным образом за один проход оптимизации. Метод также замораживает ранее изученные компоненты при решении новых задач и применяет математический штраф, чтобы компоненты не мешали друг другу. В тестах на стандартных наборах данных классификации изображений CODA-Prompt превзошёл предыдущий ведущий метод, DualPrompt, на величину до 4,5 процентного пункта по средней точности, а также хорошо себя показал на более реалистичном тесте, который смешивал одновременно изменения новых категорий и сдвиги стиля, — тот тип составных сдвигов распределения, который отражает реальные условия развёртывания.

аннотация

Модели компьютерного зрения страдают от явления, известного как катастрофическое забывание, при изучении новых концепций из непрерывно меняющихся обучающих данных. Типичные решения этой проблемы непрерывного обучения (continual learning) требуют обширного повторения ранее увиденных данных, что увеличивает затраты памяти и может нарушать конфиденциальность данных. Недавно появление крупномасштабных предобученных моделей vision transformer позволило использовать подходы на основе промптов в качестве альтернативы повторению данных. Эти подходы опираются на механизм «ключ-запрос» (key-query) для генерации промптов и оказались высокоустойчивыми к катастрофическому забыванию в хорошо устоявшейся постановке непрерывного обучения без повторения. Однако ключевой механизм этих методов не обучается сквозным (end-to-end) образом вместе с последовательностью задач. Наши эксперименты показывают, что это приводит к снижению их пластичности, тем самым жертвуя точностью на новых задачах, и к неспособности извлекать выгоду из расширенной ёмкости параметров. Вместо этого мы предлагаем обучать набор компонентов промптов, которые собираются с весами, обусловленными входом, для получения обусловленных входом промптов, что приводит к новой схеме «ключ-запрос» на основе внимания, обучаемой сквозным образом. Наши эксперименты показывают, что мы превосходим текущий SOTA-метод DualPrompt на устоявшихся бенчмарках на величину до 4,5% по средней итоговой точности. Мы также превосходим современный уровень на величину до 4,4% точности на бенчмарке непрерывного обучения, который содержит сдвиги задач как с инкрементом по классам, так и с инкрементом по доменам, что соответствует многим практическим сценариям. Наш код доступен по адресу https://github.com/GT-RIPL/CODA-Prompt

подробности

комментарий: Accepted by the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023)

цитирование

@inproceedings{smith2023coda,
  title = {CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning},
  author = {Smith, James Seale and Karlinsky, Leonid and Gutta, Vyshnavi and Cascante-Bonilla, Paola and Kim, Donghyun and Arbelle, Assaf and Panda, Rameswar and Feris, Rogerio and Kira, Zsolt},
  year = {2023},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2023},
  url = {https://arxiv.org/abs/2211.13218},
}