Attention进阶史(MHA, MQA, GQA, MLA)
在深度学习领域,注意力机制(Attention Mechanism)自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力(MHA)到如今的高效变体,如多查询注意力(MQA)、分组查询注意力(GQA)和多层注意力(MLA),注意力机制不断演进,旨在解决计算效率、内存占用和模型性能之间的平衡问题。与此同时,KV Cache等技术的引入进一步优化了推理阶段的效率,使得大规模模型在实际应用中的部署成为可能。本文将带您回顾注意力机制的进阶史,深入探讨这些技术的设计思想、优势及其对深度学习领域的深远影响。 1. Transformer Transformer是典型的编码器-解码器模型,该模型主要由两个块组成,如下图所示 Transformer算法之所以基于编码器-解码器框架,是因为该模型最开始是进行翻译或QA问题的,此时编码器负责接受问题,提取问题中的语言与意图给到解码器,解码器在对应生成相关答案。实际上,不管是编码器还是解码器都可以独立或联合使用,具体取决于任务,以文本信息为例: (1)仅使用编码器的模型:适用于需要理解输入的任务,例如句子情感取向分类和命名实体识别等。 (2)仅使用解码器的模型:适用于文本生成等生成任务。 (3)使用编码器-解码器的模型:适用于需要输入的生成任务,例如语言翻译或摘要提取等任务。 1.1 MHA: 多头自注意力机制(Multi-heads Self-Attention) Transformer模型中最关键部分就是自注意力(Self-Attention)机制,正如 Transformer 的论文的标题是“Attention Is All You […]
Attention进阶史(MHA, MQA, GQA, MLA) Read More »