ParallelSpec: Parallel Drafter for Efficient Speculative Decoding

Zilin Xiao; Hongming Zhang; Tao Ge; Siru Ouyang; Vicente Ordonez; Dong Yu

← voltar às publicações

preprint

ParallelSpec: Parallel Drafter for Efficient Speculative Decoding

Zilin Xiao, Hongming Zhang, Tao Ge, Siru Ouyang, Vicente Ordonez, Dong Yu.

arXiv:2410.05589 October 2024.

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University e do Tencent AI Lab desenvolveram uma nova técnica chamada ParallelSpec que acelera um método popular para tornar a inferência de modelos de linguagem de grande porte mais rápida. O desafio subjacente é que os chamados sistemas de decodificação especulativa — que usam um pequeno modelo de "rascunho" para propor rapidamente um texto candidato que um modelo-alvo maior então verifica em paralelo — ainda forçam esse pequeno rascunhador a gerar tokens um de cada vez, criando um gargalo que se torna mais longo quanto mais tokens o rascunhador é solicitado a prever. Para resolver isso, a equipe construiu um único modelo de rascunho leve que prevê múltiplos tokens futuros simultaneamente em uma única passagem para frente, usando tokens de "máscara" de marcação especialmente treinados para induzir o modelo a olhar adiante sem rodar sequencialmente. Eles também projetaram um procedimento de treinamento cuidadoso, chamado treinamento paralelo por grupos, para evitar incompatibilidades entre como o modelo é treinado e como ele realmente roda em tempo de inferência. Quando integrada a dois arcabouços de decodificação especulativa consolidados, Medusa e EAGLE, a abordagem proporcionou ganhos de velocidade consistentes em uma variedade de tarefas de geração de texto, incluindo tradução, sumarização, raciocínio matemático e resposta a perguntas; no Llama-2-13B, alcançou 2,84 vezes a velocidade da geração autorregressiva padrão e elevou o aumento de velocidade do Medusa no Vicuna-7B em cerca de 63 por cento. O trabalho é relevante porque aborda uma ineficiência fundamental no estágio de rascunho, em vez de simplesmente ajustar quantos tokens são propostos, potencialmente tornando a aceleração sem perdas de LLM mais prática para aplicações em tempo real.

resumo

A decodificação especulativa provou ser uma solução eficiente para a inferência de modelos de linguagem de grande porte (LLM), na qual o pequeno rascunhador prevê tokens futuros a baixo custo, e o modelo-alvo é aproveitado para verificá-los em paralelo. No entanto, a maioria dos trabalhos existentes ainda rascunha tokens de forma autorregressiva para manter a dependência sequencial na modelagem de linguagem, o que consideramos um enorme fardo computacional na decodificação especulativa. Apresentamos o ParallelSpec, uma alternativa às estratégias de rascunho autorregressivo nas abordagens de decodificação especulativa de ponta. Em contraste com o rascunho autorregressivo no estágio especulativo, treinamos um rascunhador paralelo para servir como um modelo especulativo eficiente. O ParallelSpec aprende a prever de forma eficiente múltiplos tokens futuros em paralelo usando um único modelo, e pode ser integrado a qualquer arcabouço de decodificação especulativa que exija alinhar as distribuições de saída do rascunhador e do modelo-alvo com custo mínimo de treinamento. Resultados experimentais mostram que o ParallelSpec acelera os métodos de linha de base em latência em até 62% em benchmarks de geração de texto de diferentes domínios, e alcança um aumento de velocidade geral de 2,84X no modelo Llama-2-13B usando critérios de avaliação de terceiros.

detalhes

comentário: work in progress

citação

@article{xiao2024parallelspec,
  title = {ParallelSpec: Parallel Drafter for Efficient Speculative Decoding},
  author = {Xiao, Zilin and Zhang, Hongming and Ge, Tao and Ouyang, Siru and Ordonez, Vicente and Yu, Dong},
  year = {2024},
  journal = {arXiv preprint arXiv:2410.05589},
  url = {https://arxiv.org/abs/2410.05589},
}