Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar; Vicente Ordonez; Luke Zettlemoyer; Ali Farhadi

← назад к публикациям

publication

Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar, Vicente Ordonez, Luke Zettlemoyer, Ali Farhadi.

Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2017. Honolulu, Hawaii. July 2017.

статья pdf demo исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Washington и Allen Institute for Artificial Intelligence взялись за упорную проблему в компьютерном зрении: когда AI-системы пытаются описать происходящее на фотографии в структурированных деталях — идентифицируя не только активность вроде «несёт», но и кто несёт, что несёт и где — они склонны разваливаться всякий раз, когда сцена включает необычное сочетание объектов и ролей. Команда обнаружила, что в бенчмарк-наборе данных imSitu примерно 35 процентов требуемых предсказаний включают пары объект-роль, встречавшиеся при обучении менее десяти раз, и существующие модели значительно теряют точность именно в этих случаях. Чтобы решить это, исследователи разработали две дополняющие друг друга техники. Во-первых, они спроектировали новую математическую модель под названием композиционный тензорный потенциал, встроенную во фреймворк Conditional Random Field, которая учится разделяемым представлениям существительных между разными ролями — так что знание о том, как выглядит, например, «младенец», может информировать предсказания независимо от того, выступает ли младенец как то, что несут, или как тот, кто несёт. Во-вторых, они построили пайплайн семантической аугментации данных, который преобразует размеченные обучающие ситуации в короткие текстовые фразы, использует эти фразы для извлечения примерно пяти миллионов изображений из поиска по картинкам Google и включает зашумлённые результаты через обучение по маргинальному правдоподобию и итеративное самообучение. Сочетание обоих подходов улучшило точность top-5 для глаголов примерно на 6 процентов, а для роли-существительного — почти на 10 процентов по сравнению с предыдущим современным уровнем, с ещё большим относительным приростом на редких случаях, на которые работа специально нацелена. Выводы важны, поскольку семантическая разреженность — слишком много возможных сочетаний выходов, слишком мало примеров большинства из них — является широко распространённым препятствием в задачах структурированного визуального понимания, и эта работа предлагает конкретную, масштабируемую стратегию для повышения надёжности AI-систем при столкновении с нечастыми ситуациями, которые на практике довольно часты в реальном мире.

аннотация

Семантическая разреженность — распространённый вызов в задачах структурированной визуальной классификации; когда выходное пространство сложно, подавляющее большинство возможных предсказаний редко, если вообще когда-либо, встречаются в обучающем наборе. Эта статья изучает семантическую разреженность в распознавании ситуаций — задаче построения структурированных описаний того, что происходит на изображениях, включая активности, объекты и роли, которые объекты играют в рамках активности. Для этой задачи мы эмпирически обнаруживаем, что большинство сочетаний объект-роль редки, и современные модели значительно недорабатывают в этом режиме разреженных данных. Мы избегаем многих таких ошибок, (1) вводя новую функцию тензорной композиции, которая учится разделять примеры между сочетаниями роль-существительное, и (2) семантически дополняя наши обучающие данные автоматически собранными примерами редко наблюдаемых выходов с использованием веб-данных. При интеграции в полную модель структурированного предсказания на основе CRF подход на основе тензоров превосходит существующий современный уровень с относительным улучшением на 2,11% и 4,40% по точности top-5 для глаголов и для роли-существительного соответственно. Добавление 5 миллионов изображений с помощью наших техник семантической аугментации даёт дальнейшие относительные улучшения на 6,23% и 9,57% по точности top-5 для глаголов и для роли-существительного.

цитирование

@inproceedings{yatskar2017commonly,
  title = {Commonly Uncommon: Semantic Sparsity in Situation Recognition},
  author = {Yatskar, Mark and Ordonez, Vicente and Zettlemoyer, Luke and Farhadi, Ali},
  year = {2017},
  booktitle = {Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2017},
  url = {https://arxiv.org/abs/1612.00901},
}