多模态算法专栏

PaLI系列多模态模型：Pathways Language and Image model

2025年5月23日

1. PaLI：一种联合尺度的多模态模型大型语言模型（LLM）凭借其强大的扩展能力和灵活的任务接口，已在众多领域展现出卓越性能。而谷歌研究院提出的PaLI（Pathways Language and Image model）将这一成功经验延伸到了多语言，多模态领域，构建了一个能够同时理解图像与文本的通用智能系统。 1.1 模型核心设计 PaLI的创新在于其统一的生成式架构：研究人员特别发现，视觉与语言模块的协同扩展至关重要。由于传统视觉模型的规模远小于语言模型，团队专门训练了一个40亿参数的巨型ViT（ViT-e），证明了更大容量视觉模型对多模态性能的提升作用。数据与训练为训练PaLI，团队构建了迄今规模最大的多模态数据集之一： 1.2 模型架构在传统AI系统中，不同的任务往往需要不同的模型来处理——例如： PaLI通过统一的文本生成接口打破了这一界限：输入：任意图像 + 文本指令输出：自由格式文本（可适配所有任务）这种设计灵感来自OFA等前沿工作，但PaLI进一步通过纯提示词（prompt）区分任务类型，无需为不同任务定制模型结构。如下图所示： PaLI团队训练了截至论文发表时已知的最大的纯视觉Transformer（ViT-e），其核心创新包括： […]

PaLI系列多模态模型：Pathways Language and Image model Read More »

Uni-Perceiver系列: 基于双编码器的多模态通用模型

2025年5月14日

1.引用这篇论文提出了一种名为 Uni-Perceiver 的通用感知架构，旨在解决当前机器学习任务特定范式的局限性，并模仿生物智能系统的多模态整合与并行处理能力。当前机器学习模型通常针对单一任务独立设计，导致任务间协作效率低且开发新任务的边际成本较高。相比之下，生物系统能够高效整合视觉、听觉等多模态信息，同时处理多种任务。Uni-Perceiver 通过统一建模和共享参数实现了多模态（如图像、文本、音频）和多任务（如分类、检测、生成）的协同处理。其对比如下图1所示：模型层面，Uni-Perceiver 的核心设计包括三个部分：一是模态无关的Transformer编码器，将不同模态的输入和目标映射到统一表示空间；二是轻量级模态特定分词器，用于将原始数据转换为模型可处理的token，仅需少量参数适配；三是任务统一建模，所有任务均被转化为输入与目标的表示相似度计算问题。在预训练阶段，模型通过多种单模态和多模态任务学习通用表示；在下游任务中，它支持零样本推理、少量数据提示调优和全数据微调。实验表明，预训练模型在未见任务上表现合理，而仅用1%下游数据调优即可接近SOTA性能，全微调后甚至能超越现有最佳方法。这一研究的创新点在于通过统一任务建模和参数共享，显著降低了多任务开发的边际成本，同时提升了模型的泛化能力。Uni-Perceiver 的灵活部署方式（零样本、提示调优、全微调）使其适用于不同资源场景，为构建通用AI系统提供了新思路。未来研究可进一步探索模态统一与任务性能的平衡，以及计算效率的优化。论文作者还开源了代码和预训练权重，推动了通用感知模型的后续发展。总体而言，这项工作在多模态多任务学习领域迈出了重要一步，为高效、通用的机器学习模型设计提供了重要参考。最后，uni-perceiver是一个系列模型，也包括uni-perceiver，uni-perceiverV2，本博文都会提及。原文链接如下： 2. Uni-Perceiver 模型不同模态的数据，在送进模型之前要进行Token化，即Embedding。输入Token化具体来说：模型的输入序列可以自由组合不同模态的Token，例如：所有模态的Token序列都由同一个Transformer模型处理，输出统一语义空间中的特征。不同任务（如分类、检索）通过比较输入和目标的特征相似度来实现（例如：计算最大似然得分）。如下图所示： UniPerceiver的核心设计思想——用同一个模型处理不同任务（如分类、检索），且支持文本、图像、视频等多种输入形式。其关键是通过最大化输入与目标的联合概率来统一建模，具体来说，无论什么任务（例如图像分类、视频检索），都可以抽象为：模型的目标是找到与输入最匹配的 $\mathbf{y}$ ，公式表示为：

Uni-Perceiver系列: 基于双编码器的多模态通用模型 Read More »

BEiT：初探大一统多模态框架

2025年5月9日

1. 引言近年来，语言、视觉和多模态预训练技术正加速融合，仿佛AI领域的”三国归一”。在这场变革中，BEIT-3横空出世——一个号称”通用多模态基础模型”的全能选手，不仅在图像识别、文本理解等单模态任务上表现惊艳，还能轻松玩转图文问答、跨模态检索等复杂挑战。论文地址：http://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Image_as_a_Foreign_Language_BEiT_Pretraining_for_Vision_and_CVPR_2023_paper.pdf 🔧 三大创新：如何实现”大一统”？ 🏆 实战成绩单：屠榜多模态任务在8项权威测试中，BEIT-3全部刷新纪录：类似CoCa工作，BEiT-3的作者团队也给出了一张非常直观且夸张的性能图，如下所示： 2. 相关工作 2.1 模型架构在视觉-语言任务中，Transformer 的应用方式多种多样，取决于具体需求： ⚠️ 现有方法的痛点虽然这些架构各有优势，但大多数基础模型（Foundation Models）面临两大问题： BEIT-3 的解决方案：多路 Transformer（Multiway

BEiT：初探大一统多模态框架 Read More »

CoCa：多模态领域的六边形战士

2025年4月29日

1. 简介大规模预训练基础模型在计算机视觉领域具有重要意义，因为这些模型能够快速迁移至多种下游任务。本研究提出对比-生成双模态模型（Contrastive Captioner, CoCa），该模型采用极简设计，通过联合优化对比损失与生成损失，实现图像-文本编码器-解码器基础模型的预训练，从而兼具CLIP等对比式模型与SimVLM等生成式模型的能力。与传统编码器-解码器架构（所有解码层均关注编码器输出）不同，CoCa在前半部分解码层中省略跨模态注意力机制以生成单模态文本表征，后半部分解码层则以级联方式对图像编码器输出进行跨模态注意力计算，最终获得多模态图文表征。该模型在单模态图像-文本嵌入之间施加对比损失，同时在多模态解码器输出端采用自回归文本预测的生成损失。由于共享计算图，两个训练目标能以极低开销高效实现。 CoCa的模型设计其实是ALBEF的延展性工作，只是模型更大，数据集超大，把性能堆的超级好。实验表明，CoCa在零样本迁移或极少量任务适配条件下，于视觉识别（ImageNet、Kinetics400/600/700、Moments-in-Time）、跨模态检索（MSCOCO、Flickr30K、MSR-VTT）、多模态理解（VQA、SNLI-VE、NLVR2）及图像描述生成（MSCOCO、NoCaps）等广泛下游任务中达到最先进性能。特别在ImageNet分类任务中，CoCa取得86.3%的零样本Top-1准确率，冻结编码器微调分类头时达90.6%，完整微调后更以91.0%的Top-1准确率刷新当前最佳记录。论文中给到了非常直观的一张图。如下所示：如图4所示，在这个蜘蛛网图中，每个边表征一个数据集（也可以看作一个任务）。黄色阴影是CoCa被提出之前，每个数据集上不同模型能达到的最好的性能（SOTA），紫色则是CoCa能到达的性能，简单说就是吊打图中所有任务的所有SOTA模型。不过，悄悄的说，我个人感觉这看似恐怖且震撼的性能实际上没有太多贡献，主要是超大训练集支持的… 论文地址：https://arxiv.org/pdf/2205.01917 2. 模型与损失这张图展示了Contrastive Captioners (CoCa)模型的预训练框架及其应用场景，以及训练所用的损失函数。 CoCA的模型架构与ALBEF不能说一模一样吧，可以说毫无差别，但在损失函数的选择上是有差异的。具体来说CoCA的损失函数由两部分组成，通过加权联合优化： 1．对比损失（Contrastive Loss） $$\mathcal{L}{\text

CoCa：多模态领域的六边形战士 Read More »

BLIP: 自举式数据清洗助力多模态

2025年4月28日

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. 介绍视觉-语言预训练近期在各种多模态下游任务中取得了巨大成功。然而现有方法存在两大局限性：（1）模型层面：现有方法要么采用基于编码器的模型，要么采用编码器-解码器模型。但基于编码器的模型难以直接迁移到文本生成任务（如图像描述），而编码器-解码器模型尚未成功应用于图文检索任务。（2）数据层面：最先进方法（如CLIP、ALBEF、SimVLM）主要使用网络收集的图文对进行预训练。尽管扩大数据集能提升性能，但本文证明网络文本的噪声特性不利于视觉-语言学习。为此，BLIP提出（自举式语言-图像预训练框架），通过模型与数据层面的双重创新实现统一的理解与生成能力： (a) 多模态混合编解码器（MED）：新型架构支持多任务预训练与灵活迁移学习。MED可切换为单模态编码器、基于图像的文本编码器或解码器，通过图像-文本对比学习、匹配和条件语言建模三目标联合预训练。 (b) 字幕生成与过滤（CapFilt）：从噪声数据中学习的新方法。将预训练MED微调为两个模块：为网络图像生成合成字幕的生成器（Cap），以及过滤原始网络文本与合成文本噪声的过滤器（Filt）。

BLIP: 自举式数据清洗助力多模态 Read More »

VLMO：基于混合专家的视觉语言模型

2025年4月27日

1. 摘要这篇论文提出了一种名为 VLMO（Vision-Language pretrained Model）的新型跨模态模型，它采用模块化 Transformer 结构，能够同时学习双编码器（Dual Encoder）和融合编码器（Fusion Encoder），从而灵活适应不同的视觉-语言任务。核心创新：混合模态专家（MOME）Transformer 传统跨模态模型通常针对特定任务设计，而 VLMO 的关键突破在于其模块化架构。它采用 Mixture-of-Modality-Experts（MOME）Transformer，其中每个 Transformer 模块包含：这种设计使 VLMO 具备极高的灵活性：分阶段预训练策略为了充分利用不同数据源，作者提出分阶段预训练（Stagewise

VLMO：基于混合专家的视觉语言模型 Read More »

ALBEF（Align Before Fuse）：模态对齐与知识蒸馏

2025年4月25日

1. 摘要 1.1 问题现有的多模态（图像+文本）模型通常用一个Transformer编码器同时处理图像特征和文本词符。但图像区域和单词之间没有天然的对齐关系，导致模型难以准确学习两者之间的交互。比如，模型可能不知道图片中的”狗”对应文本中的哪个词。 1.2 解决方案：ALBEF 2. 模型架构 ALBEF（Align Before Fusing）的模型结构通过图像编码器、文本编码器和多模态编码器三部分协同工作，实现图像与文本的高效对齐和融合。以下是详细解析： 2.1 各组件细节 (1) 图像编码器 (2) 文本编码器 (3) 多模态编码器

ALBEF（Align Before Fuse）：模态对齐与知识蒸馏 Read More »

CLIP：基于对比学习的图像文本预训练模型

2025年4月21日

1. 摘要目前最先进的计算机视觉系统通常通过预定义的对象类别进行训练。这种受限的监督形式严重限制了模型的通用性和实用性——因为任何新视觉概念的识别都需要额外的标注数据。而直接从图像相关的原始文本中学习，则提供了一种更具潜力的替代方案，它能利用更广泛的监督信号来源。论文的研究表明，一个简单的预训练任务——即预测哪段文本描述与哪张图像匹配——可以高效、可扩展地从互联网收集的4亿个（图像，文本）配对数据集中，从头开始学习最先进的图像表征。预训练完成后，通过自然语言即可调用已学习的视觉概念（或描述新概念），从而实现模型在下游任务中的零样本迁移。论文地址：https://arxiv.org/pdf/2103.00020 2. 方法（图1）详细展示了CLIP（Contrastive Language-Image Pre-training）模型的核心工作流程，分为三个关键阶段。图示符号详解：符号含义技术作用 l_i 第i张图像的特征向量视觉概念的向量化表示 T_j 第j个文本的特征向量语言概念的向量化表示 l_i-T_j

CLIP：基于对比学习的图像文本预训练模型 Read More »

ViLT: 视觉与语言多模态框架

2025年4月11日

1. 摘要视觉与语言预训练（VLP）在跨模态任务（如图文检索、视觉问答等）上取得了显著进展。然而，现有方法大多依赖计算量大的图像特征提取模块（如基于目标检测的区域特征或CNN提取的全局特征），这不仅降低了效率，还限制了模型的表达能力。本文提出 ViLT（Vision-and-Language Transformer），一种极简的VLP模型，其核心创新是完全摒弃传统卷积或区域监督方法，改用类似文本处理的“无卷积”方式直接建模视觉输入。实验证明，ViLT 比现有方法快数十倍，同时在下游任务上保持甚至超越SOTA性能。论文地址：http://proceedings.mlr.press/v139/kim21k/kim21k.pdf 2. 介绍 2.1 背景作者总结了视觉-语言模型（Vision-and-Language Models）的四种计算范式分类，通过比较视觉嵌入（VE）、文本嵌入（TE）和模态交互（MI）三个模块的相对计算量（矩形高度表示），揭示了不同模型的设计差异。以下是详细解析： (a) VE > TE > MI特点：视觉嵌入计算量最大，文本次之，模态交互最小。需运行Faster R-CNN提取区域特征（VE耗时高），文本用轻量BERT（TE中等），交互较简单。代表模型：早期基于区域检测的模型（如UNITER、VILBERT）。 (b)

ViLT: 视觉与语言多模态框架 Read More »