Text2Scene: Generating Compositional Scenes from Textual Descriptions

Fuwen Tan; Song Feng; Vicente Ordonez

← voltar às publicações

publication

Text2Scene: Generating Compositional Scenes from Textual Descriptions

Fuwen Tan, Song Feng, Vicente Ordonez.

Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2019. Long Beach, California. June 2019.

artigo code demo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da University of Virginia e do Thomas J. Watson Research Center da IBM desenvolveram um sistema chamado Text2Scene que pode gerar automaticamente cenas visuais a partir de descrições escritas — sem depender das Redes Generativas Adversariais, ou GANs, das quais a maioria das abordagens concorrentes depende. Em vez de tentar sintetizar uma imagem inteira de uma só vez, o sistema funciona mais como um ilustrador cuidadoso, lendo uma frase e depois posicionando objetos um de cada vez sobre uma tela em branco, decidindo a cada passo o que adicionar em seguida, onde colocá-lo e qual deve ser sua aparência. O modelo usa mecanismos de atenção para focar em diferentes partes do texto de entrada à medida que constrói a cena, de modo que, quando uma descrição diz "Jenny is running towards Mike", o sistema consegue deduzir que a orientação de Jenny depende de onde Mike já está posicionado. A equipe testou sua abordagem em três tarefas bastante diferentes — gerar cenas de clip-art em estilo de desenho animado, prever mapas realistas de layout de objetos e montar fotografias compostas a partir de fragmentos de imagens recuperados — usando o mesmo framework subjacente com apenas pequenas modificações para cada uma. Em comparações diretas, o Text2Scene igualou ou superou os rivais baseados em GANs na maioria das métricas automáticas de qualidade e superou todos eles, incluindo o forte modelo AttnGAN, quando avaliadores humanos julgaram quais imagens correspondiam melhor às suas legendas. O trabalho é notável tanto porque contorna o processo de treinamento de GANs, notoriamente delicado, quanto porque produz saídas interpretáveis, passo a passo, que tornam mais fácil entender por que o modelo fez as escolhas que fez — uma qualidade que os sistemas de geração puramente baseados em pixels geralmente não têm.

resumo

Neste artigo, propomos o Text2Scene, um modelo que gera várias formas de representações composicionais de cenas a partir de descrições em linguagem natural. Diferentemente de trabalhos recentes, nosso método NÃO usa Redes Generativas Adversariais (GANs). Em vez disso, o Text2Scene aprende a gerar sequencialmente objetos e seus atributos (localização, tamanho, aparência, etc.) a cada passo de tempo, atendendo a diferentes partes do texto de entrada e ao estado atual da cena gerada. Mostramos que, sob pequenas modificações, o framework proposto pode lidar com a geração de diferentes formas de representações de cenas, incluindo cenas no estilo de desenho animado, layouts de objetos correspondentes a imagens reais e imagens sintéticas. Nosso método não apenas é competitivo quando comparado a métodos de ponta baseados em GANs usando métricas automáticas e superior com base em julgamentos humanos, mas também tem a vantagem de produzir resultados interpretáveis.

detalhes

comentário: CVPR 2019

citação

@inproceedings{tan2019text,
  title = {Text2Scene: Generating Compositional Scenes from Textual Descriptions},
  author = {Tan, Fuwen and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Intl. Conference on Computer Vision and Pattern Recognition. CVPR 2019},
  url = {https://arxiv.org/abs/1809.01110},
}