Evolving Image Compositions for Feature Representation Learning

Paola Cascante-Bonilla; Arshdeep Sekhon; Yanjun Qi; Vicente Ordonez

← назад к публикациям

publication

Evolving Image Compositions for Feature Representation Learning

Paola Cascante-Bonilla, Arshdeep Sekhon, Yanjun Qi, Vicente Ordonez.

British Machine Vision Conference. BMVC 2021. November 2021.

статья project page pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и Rice University разработали технику аугментации данных под названием PatchMix, которая помогает нейронным сетям распознавания изображений учиться лучше за счёт обучения на искусственно сконструированных гибридных изображениях. Основная проблема в том, что модели deep learning для визуального распознавания склонны переобучаться на своих обучающих данных, и хотя существующие методы, такие как Mixup и CutMix, уже смешивают пары изображений для борьбы с этим, они ограничены в том, насколько гибко они могут комбинировать эти изображения. PatchMix решает это, разрезая два изображения на сетку патчей одинакового размера и обменивая патчи между ними согласно бинарной маске, а затем присваивая результирующему составному изображению смешанную метку, пропорциональную тому, сколько патчей пришло из каждого источника. Команда также добавила вторичную функцию потерь, которая обучает сеть правильно определять, к какому классу принадлежит каждый отдельный патч, а не только изображение в целом, что вынуждает модель строить более локально осведомлённые представления. Идя дальше, исследователи использовали генетический алгоритм поиска для автоматического обнаружения того, какие пары категорий изображений наиболее полезно смешивать вместе и какие сеточные паттерны производят наиболее сложные — и потому наиболее информативные — обучающие примеры, всё это без необходимости переобучать модель с нуля для каждой кандидатной конфигурации. Протестированная на стандартных бенчмарках, модель ResNet-50, обученная с PatchMix, превзошла базовые модели на CIFAR-10, CIFAR-100, Tiny ImageNet и ImageNet и показала более сильную производительность transfer learning на задачах, включая детекцию объектов, распознавание сцен и генерацию подписей к изображениям, что говорит о том, что метод производит более универсальные визуальные признаки, чем конкурирующие подходы.

аннотация

Свёрточные нейронные сети для визуального распознавания требуют больших объёмов обучающих образцов и обычно выигрывают от аугментации данных. В этой статье предлагается PatchMix — метод аугментации данных, который создаёт новые образцы путём составления патчей из пар изображений в сеточном паттерне. Этим новым образцам присваиваются метки-оценки, пропорциональные числу патчей, заимствованных из каждого изображения. Затем мы добавляем набор дополнительных функций потерь на уровне патчей для регуляризации и для поощрения хороших представлений как на уровне патчей, так и на уровне изображений. Модель ResNet-50, обученная на ImageNet с использованием PatchMix, демонстрирует превосходные способности к transfer learning на широком спектре бенчмарков. Хотя PatchMix может полагаться на случайные пары и случайные сеточные паттерны для смешивания, мы исследуем эволюционный поиск как направляющую стратегию для совместного обнаружения оптимальных сеточных паттернов и пар изображений. С этой целью мы разрабатываем функцию приспособленности, которая обходит необходимость переобучать модель для оценки каждого возможного выбора. Таким образом, PatchMix превосходит базовую модель на CIFAR-10 (+1,91), CIFAR-100 (+5,31), Tiny Imagenet (+3,52) и ImageNet (+1,16).

подробности

комментарий: Accepted to BMVC 2021. Camera-Ready version. Project page: https://paolacascante.com/patchmix/index.html

цитирование

@inproceedings{cascantebonilla2021evolving,
  title = {Evolving Image Compositions for Feature Representation Learning},
  author = {Cascante-Bonilla, Paola and Sekhon, Arshdeep and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {British Machine Vision Conference. BMVC 2021},
  url = {https://arxiv.org/abs/2106.09011},
}