Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar; Vicente Ordonez; Luke Zettlemoyer; Ali Farhadi

← 논문 목록으로 돌아가기

publication

Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar, Vicente Ordonez, Luke Zettlemoyer, Ali Farhadi.

Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2017. Honolulu, Hawaii. July 2017.

논문 pdf demo 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

워싱턴 대학교와 Allen Institute for Artificial Intelligence의 연구진은 컴퓨터 비전의 끈질긴 문제를 다루었다. AI 시스템이 사진 속에서 무슨 일이 일어나고 있는지를 구조화된 세부 사항으로 묘사하려 할 때 — "운반하기"와 같은 활동뿐만 아니라 누가 운반하는지, 무엇을 운반하는지, 어디서 하는지를 식별하려 할 때 — 장면에 객체와 역할의 비정상적인 조합이 포함될 때마다 무너지는 경향이 있다. 이 팀은 imSitu 벤치마크 데이터셋에서 요구되는 예측의 약 35%가 학습 중에 열 번 미만으로 보인 객체-역할 짝을 포함하며, 기존 모델이 바로 그런 경우에 상당한 정확도를 잃는다는 것을 발견했다. 이를 해결하기 위해 연구진은 두 가지 상호 보완적인 기법을 개발했다. 첫째, 그들은 Conditional Random Field 프레임워크 내에 내장된, 서로 다른 역할에 걸쳐 명사의 공유된 표현을 학습하는 합성 텐서 잠재력(compositional tensor potential)이라는 새로운 수학적 모델을 설계했다. 그래서 예컨대 "아기"가 어떻게 생겼는지에 대한 지식이, 아기가 운반되는 대상으로 나타나든 운반하는 사람으로 나타나든 상관없이 예측에 정보를 줄 수 있다. 둘째, 그들은 주석이 달린 학습 상황을 짧은 텍스트 구문으로 변환하고, 그 구문을 사용하여 Google 이미지 검색에서 약 500만 개의 이미지를 검색하며, 그 잡음 섞인 결과를 주변 우도(marginal likelihood) 학습과 반복적 자기 학습을 통해 통합하는 의미적 데이터 증강 파이프라인을 구축했다. 두 접근법을 결합하면 top-5 동사 정확도가 약 6%, 명사-역할 정확도가 거의 10% 향상되어 이전 최첨단을 능가했으며, 이 연구가 특별히 겨냥한 드문 경우에서는 더 큰 상대적 향상을 보였다. 이 발견이 중요한 이유는 의미적 희소성 — 너무 많은 가능한 출력 조합, 대부분에 대한 너무 적은 예제 — 이 구조화된 시각적 이해 작업에서 광범위한 장애물이며, 이 연구가 실제로 꽤 흔한 드문 상황을 마주할 때 AI 시스템을 더 신뢰할 수 있게 만들기 위한 구체적이고 확장 가능한 전략을 제공하기 때문이다.

초록

의미적 희소성(semantic sparsity)은 구조화된 시각적 분류 문제에서 흔한 도전 과제이다. 출력 공간이 복잡할 때, 가능한 예측의 대다수는 학습 집합에서 드물게 보이거나 전혀 보이지 않는다. 본 논문은 활동, 객체, 그리고 객체가 활동 내에서 하는 역할을 포함하여 이미지에서 무슨 일이 일어나고 있는지의 구조화된 요약을 생성하는 작업인 상황 인식(situation recognition)에서의 의미적 희소성을 연구한다. 이 문제에 대해, 우리는 대부분의 객체-역할 조합이 드물며 현재의 최첨단 모델이 이 희소 데이터 영역에서 상당히 부진하다는 것을 경험적으로 발견한다. 우리는 (1) 역할-명사 조합 전반에 걸쳐 예제를 공유하는 법을 학습하는 새로운 텐서 합성 함수를 도입하고 (2) 웹 데이터를 사용하여 드물게 관찰되는 출력의 예제를 자동으로 수집하여 학습 데이터를 의미적으로 증강함으로써 그러한 많은 오류를 피한다. 완전한 CRF 기반 구조화된 예측 모델 내에 통합되었을 때, 텐서 기반 접근법은 top-5 동사 및 명사-역할 정확도에서 각각 2.11% 및 4.40%의 상대적 향상으로 기존 최첨단을 능가한다. 우리의 의미적 증강 기법으로 500만 개의 이미지를 추가하면 top-5 동사 및 명사-역할 정확도에서 각각 6.23% 및 9.57%의 추가 상대적 향상을 얻는다.

인용

@inproceedings{yatskar2017commonly,
  title = {Commonly Uncommon: Semantic Sparsity in Situation Recognition},
  author = {Yatskar, Mark and Ordonez, Vicente and Zettlemoyer, Luke and Farhadi, Ali},
  year = {2017},
  booktitle = {Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2017},
  url = {https://arxiv.org/abs/1612.00901},
}