算法与框架 - VenusAI Lab

Attention进阶史（MHA, MQA, GQA, MLA）

2025年2月13日

在深度学习领域，注意力机制（Attention Mechanism）自诞生以来便成为推动自然语言处理和计算机视觉等任务发展的核心动力。从最初的多头注意力（MHA）到如今的高效变体，如多查询注意力（MQA）、分组查询注意力（GQA）和多层注意力（MLA），注意力机制不断演进，旨在解决计算效率、内存占用和模型性能之间的平衡问题。与此同时，KV Cache等技术的引入进一步优化了推理阶段的效率，使得大规模模型在实际应用中的部署成为可能。本文将带您回顾注意力机制的进阶史，深入探讨这些技术的设计思想、优势及其对深度学习领域的深远影响。 1. Transformer Transformer是典型的编码器-解码器模型，该模型主要由两个块组成，如下图所示 Transformer算法之所以基于编码器-解码器框架，是因为该模型最开始是进行翻译或QA问题的，此时编码器负责接受问题，提取问题中的语言与意图给到解码器，解码器在对应生成相关答案。实际上，不管是编码器还是解码器都可以独立或联合使用，具体取决于任务，以文本信息为例：（1）仅使用编码器的模型：适用于需要理解输入的任务，例如句子情感取向分类和命名实体识别等。（2）仅使用解码器的模型：适用于文本生成等生成任务。（3）使用编码器-解码器的模型：适用于需要输入的生成任务，例如语言翻译或摘要提取等任务。 1.1 MHA: 多头自注意力机制（Multi-heads Self-Attention） Transformer模型中最关键部分就是自注意力（Self-Attention）机制，正如 Transformer 的论文的标题是“Attention Is All You […]

Attention进阶史（MHA, MQA, GQA, MLA） Read More »

强化学习（DRL）

2024年9月26日

Deep Learning create by Arwin Yu Tutorial 09 – Deep Reinforcement Learning(DRL) Agenda 强化学习基本原理基础概念随机性 gym库基于价值的学习贝尔曼方程时序差分

强化学习（DRL） Read More »

图神经网络（GNN）

2024年9月26日

Deep Learning create by Arwin Yu Tutorial 08 – Graph Neural Network(GNN) Agenda 图神经网络的基本原理 MPNN的实现与使用 GNN的层结构与连接性 GNN的模型训练图数据的数据增强 GNN的变体 GCN

图神经网络（GNN） Read More »

扩散模型（DDPM）

2024年9月23日

Deep Learning create by Arwin Yu Tutorial 07 – Denoising Diffusion Probabilistic Models (DDPM) Agenda 扩散模型的基本原理前向扩散损失函数与训练反向去噪生成模型总体框架

扩散模型（DDPM） Read More »

生成对抗网络（GAN）

2024年9月19日

Deep Learning create by Arwin Yu Tutorial 06 – Generative Adversarial Networks – GAN Agenda Generative Adversarial Networks 对抗机制损失函数

生成对抗网络（GAN） Read More »

自注意力机制&Transformer算法

2024年9月18日

Deep Learning create by Arwin Yu Tutorial 05 – Transformers – Attention Mechanism Agenda 注意力机制（The Attention Mechanism）自我注意力机制多头注意力机制交叉注意力机制

自注意力机制&Transformer算法 Read More »

编解码器（Encoder-Decoder）

2024年9月14日

Deep Learning create by Arwin Yu Tutorial 04 – Encoder-Deconder Agenda 自编码器（Auto-encoder）潜空间极大似然估计隐变量模型蒙特卡洛采样变分自编码器序列到序列模型（Seq2Seq） Seq2Seq 模型结构

编解码器（Encoder-Decoder） Read More »

循环神经网络（RNN）

2024年9月13日

Deep Learning create by Arwin Yu Tutorial 03 – Recurrent Neural Networks – Sequential Tasks Agenda 自然语言处理和序列数据(Natural Language Processing and

循环神经网络（RNN） Read More »

卷积神经网络（CNN）

2024年7月31日

Deep Learning create by Arwin Yu Tutorial 02 – Convolutional Neural Networks & Visual Tasks Agenda 2D卷积（2D Convolution）基于卷积的特征提取（Convlution as

卷积神经网络（CNN） Read More »

神经网络（NN）

2024年7月29日

Deep Learning create by Arwin Yu Tutorial 01 – Neural Networks Agenda 感知机模型（Perceptron）多层感知机（Multi-Layer Preceptron）前向计算（Forward calulation）反向传播（Backproagation）基于神经网络的房价回归模型（Housing price

神经网络（NN） Read More »