Blog - VenusAI Lab - Page 3 of 9

CoCa：多模态领域的六边形战士

2025年4月29日

1. 简介大规模预训练基础模型在计算机视觉领域具有重要意义，因为这些模型能够快速迁移至多种下游任务。本研究提出对比-生成双模态模型（Contrastive Captioner, CoCa），该模型采用极简设计，通过联合优化对比损失与生成损失，实现图像-文本编码器-解码器基础模型的预训练，从而兼具CLIP等对比式模型与SimVLM等生成式模型的能力。与传统编码器-解码器架构（所有解码层均关注编码器输出）不同，CoCa在前半部分解码层中省略跨模态注意力机制以生成单模态文本表征，后半部分解码层则以级联方式对图像编码器输出进行跨模态注意力计算，最终获得多模态图文表征。该模型在单模态图像-文本嵌入之间施加对比损失，同时在多模态解码器输出端采用自回归文本预测的生成损失。由于共享计算图，两个训练目标能以极低开销高效实现。 CoCa的模型设计其实是ALBEF的延展性工作，只是模型更大，数据集超大，把性能堆的超级好。实验表明，CoCa在零样本迁移或极少量任务适配条件下，于视觉识别（ImageNet、Kinetics400/600/700、Moments-in-Time）、跨模态检索（MSCOCO、Flickr30K、MSR-VTT）、多模态理解（VQA、SNLI-VE、NLVR2）及图像描述生成（MSCOCO、NoCaps）等广泛下游任务中达到最先进性能。特别在ImageNet分类任务中，CoCa取得86.3%的零样本Top-1准确率，冻结编码器微调分类头时达90.6%，完整微调后更以91.0%的Top-1准确率刷新当前最佳记录。论文中给到了非常直观的一张图。如下所示：如图4所示，在这个蜘蛛网图中，每个边表征一个数据集（也可以看作一个任务）。黄色阴影是CoCa被提出之前，每个数据集上不同模型能达到的最好的性能（SOTA），紫色则是CoCa能到达的性能，简单说就是吊打图中所有任务的所有SOTA模型。不过，悄悄的说，我个人感觉这看似恐怖且震撼的性能实际上没有太多贡献，主要是超大训练集支持的… 论文地址：https://arxiv.org/pdf/2205.01917 2. 模型与损失这张图展示了Contrastive Captioners (CoCa)模型的预训练框架及其应用场景，以及训练所用的损失函数。 CoCA的模型架构与ALBEF不能说一模一样吧，可以说毫无差别，但在损失函数的选择上是有差异的。具体来说CoCA的损失函数由两部分组成，通过加权联合优化： 1．对比损失（Contrastive Loss） $$\mathcal{L}{\text […]

CoCa：多模态领域的六边形战士 Read More »

BLIP: 自举式数据清洗助力多模态

2025年4月28日

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. 介绍视觉-语言预训练近期在各种多模态下游任务中取得了巨大成功。然而现有方法存在两大局限性：（1）模型层面：现有方法要么采用基于编码器的模型，要么采用编码器-解码器模型。但基于编码器的模型难以直接迁移到文本生成任务（如图像描述），而编码器-解码器模型尚未成功应用于图文检索任务。（2）数据层面：最先进方法（如CLIP、ALBEF、SimVLM）主要使用网络收集的图文对进行预训练。尽管扩大数据集能提升性能，但本文证明网络文本的噪声特性不利于视觉-语言学习。为此，BLIP提出（自举式语言-图像预训练框架），通过模型与数据层面的双重创新实现统一的理解与生成能力： (a) 多模态混合编解码器（MED）：新型架构支持多任务预训练与灵活迁移学习。MED可切换为单模态编码器、基于图像的文本编码器或解码器，通过图像-文本对比学习、匹配和条件语言建模三目标联合预训练。 (b) 字幕生成与过滤（CapFilt）：从噪声数据中学习的新方法。将预训练MED微调为两个模块：为网络图像生成合成字幕的生成器（Cap），以及过滤原始网络文本与合成文本噪声的过滤器（Filt）。

BLIP: 自举式数据清洗助力多模态 Read More »

VLMO：基于混合专家的视觉语言模型

2025年4月27日

1. 摘要这篇论文提出了一种名为 VLMO（Vision-Language pretrained Model）的新型跨模态模型，它采用模块化 Transformer 结构，能够同时学习双编码器（Dual Encoder）和融合编码器（Fusion Encoder），从而灵活适应不同的视觉-语言任务。核心创新：混合模态专家（MOME）Transformer 传统跨模态模型通常针对特定任务设计，而 VLMO 的关键突破在于其模块化架构。它采用 Mixture-of-Modality-Experts（MOME）Transformer，其中每个 Transformer 模块包含：这种设计使 VLMO 具备极高的灵活性：分阶段预训练策略为了充分利用不同数据源，作者提出分阶段预训练（Stagewise

VLMO：基于混合专家的视觉语言模型 Read More »

ALBEF（Align Before Fuse）：模态对齐与知识蒸馏

2025年4月25日

1. 摘要 1.1 问题现有的多模态（图像+文本）模型通常用一个Transformer编码器同时处理图像特征和文本词符。但图像区域和单词之间没有天然的对齐关系，导致模型难以准确学习两者之间的交互。比如，模型可能不知道图片中的”狗”对应文本中的哪个词。 1.2 解决方案：ALBEF 2. 模型架构 ALBEF（Align Before Fusing）的模型结构通过图像编码器、文本编码器和多模态编码器三部分协同工作，实现图像与文本的高效对齐和融合。以下是详细解析： 2.1 各组件细节 (1) 图像编码器 (2) 文本编码器 (3) 多模态编码器

ALBEF（Align Before Fuse）：模态对齐与知识蒸馏 Read More »

CLIP：基于对比学习的图像文本预训练模型

2025年4月21日

1. 摘要目前最先进的计算机视觉系统通常通过预定义的对象类别进行训练。这种受限的监督形式严重限制了模型的通用性和实用性——因为任何新视觉概念的识别都需要额外的标注数据。而直接从图像相关的原始文本中学习，则提供了一种更具潜力的替代方案，它能利用更广泛的监督信号来源。论文的研究表明，一个简单的预训练任务——即预测哪段文本描述与哪张图像匹配——可以高效、可扩展地从互联网收集的4亿个（图像，文本）配对数据集中，从头开始学习最先进的图像表征。预训练完成后，通过自然语言即可调用已学习的视觉概念（或描述新概念），从而实现模型在下游任务中的零样本迁移。论文地址：https://arxiv.org/pdf/2103.00020 2. 方法（图1）详细展示了CLIP（Contrastive Language-Image Pre-training）模型的核心工作流程，分为三个关键阶段。图示符号详解：符号含义技术作用 l_i 第i张图像的特征向量视觉概念的向量化表示 T_j 第j个文本的特征向量语言概念的向量化表示 l_i-T_j

CLIP：基于对比学习的图像文本预训练模型 Read More »

深度学习基础（数学，算法，训练）

2025年4月19日

Introduction 欢迎来到 DL-Optimization 仓库！本项目全面探索了深度学习的数学基础、算法以及优化技术，这些构成了现代深度学习的核心。博客链接是对内容的介绍，会持续更新…. 项目代码链接：GitHub – Arwin-Yu/DL-Optimization 本仓库分为三个主要部分： 1. 数学基础这些笔记本涵盖了深度学习和机器学习所需的一些基础和进阶的数学概念，掌握这些内容能帮助你深入理解深度学习模型的工作原理，并能在实际应用中进行更加高效的建模与优化。 01_Advanced_Mathematics.ipynb：深度学习中使用的高级数学概念。 02_Linear_Algebra.ipynb：线性代数基础，包括矩阵、向量和特征值。 03_Probability_Theory.ipynb：深度学习模型中必需的概率理论概念。 04_Information_Theory.ipynb：信息论的关键原理，如熵和互信息。 05_Graph_Theory.ipynb：图结构及其在机器学习中的应用。 06_Group_Theory.ipynb：群论概念及其在几何深度学习中的相关性。 07_Quantum_Mechanics.ipynb：量子力学原理及其与深度学习的联系。 2. 深度学习算法与框架

深度学习基础（数学，算法，训练） Read More »

Tutorial 11 – 求知若渴：主动学习(Active Learning)

2025年4月19日

Deep Learning create by Deepfinder Agenda 师徒相授：有监督学习（Supervised Learning）见微知著：无监督学习（Un-supervised Learning）无师自通：自监督学习（Self-supervised Learning）以点带面：半监督学习（Semi-supervised learning）明辨是非：对比学习（Contrastive Learning）举一反三：迁移学习（Transfer Learning）针锋相对：对抗学习（Adversarial Learning）

Tutorial 11 – 求知若渴：主动学习(Active Learning) Read More »

Tutorial 10 – 百折不挠：强化学习（Reinforcement Learning）

2025年4月19日

Tutorial 10 – 百折不挠：强化学习（Reinforcement Learning） Read More »

ViLT: 视觉与语言多模态框架

2025年4月11日

1. 摘要视觉与语言预训练（VLP）在跨模态任务（如图文检索、视觉问答等）上取得了显著进展。然而，现有方法大多依赖计算量大的图像特征提取模块（如基于目标检测的区域特征或CNN提取的全局特征），这不仅降低了效率，还限制了模型的表达能力。本文提出 ViLT（Vision-and-Language Transformer），一种极简的VLP模型，其核心创新是完全摒弃传统卷积或区域监督方法，改用类似文本处理的“无卷积”方式直接建模视觉输入。实验证明，ViLT 比现有方法快数十倍，同时在下游任务上保持甚至超越SOTA性能。论文地址：http://proceedings.mlr.press/v139/kim21k/kim21k.pdf 2. 介绍 2.1 背景作者总结了视觉-语言模型（Vision-and-Language Models）的四种计算范式分类，通过比较视觉嵌入（VE）、文本嵌入（TE）和模态交互（MI）三个模块的相对计算量（矩形高度表示），揭示了不同模型的设计差异。以下是详细解析： (a) VE > TE > MI特点：视觉嵌入计算量最大，文本次之，模态交互最小。需运行Faster R-CNN提取区域特征（VE耗时高），文本用轻量BERT（TE中等），交互较简单。代表模型：早期基于区域检测的模型（如UNITER、VILBERT）。 (b)

ViLT: 视觉与语言多模态框架 Read More »

GraphGAN

2025年3月12日

GraphGAN是一种结合了图神经网络和生成对抗网络（GAN）概念的机器学习模型。它旨在通过对抗学习框架解决图数据中的节点分类和链接预测问题，特别是在缺少标签数据的情况下。GraphGAN通过结合生成器和判别器两个主要组件来学习图中节点的有效表示。 GraphGAN的框架如下：设$G=(V,\mathcal{E})$为一个给定的图，其中$V=\begin{Bmatrix}v_1,\ldots,v_V\end{Bmatrix}$代表顶点的集合，而$\mathcal{E} = \left\{ e_{ij} \right\}_{i,j=1}^{V}$代表边的集合。对于给定的顶点$\nu_{c}$，定义$\mathcal{N}\left(\nu_{c}\right)$为直接连接到$\nu_{c}$的顶点集，也就是顶点$\nu_{c}$的1-hop邻居。我们将顶点$\nu_{c}$的真实连通性分布表示为条件概率$p_{\mathrm{true}}\left(\nu|\nu_{c}\right)$，它反映了$\nu_{c}$的连通性偏好和它所连接顶点的类型。从这个视角来看，$\mathcal{N}\left(\nu_{c}\right)$可以被看作是从$p_{\mathrm{true}}\left(\nu|\nu_{c}\right)$抽取的一组观察样本。给定图$\mathrm{G}$，GraphGAN旨在学习以下两个模型：生成器$\mathrm{G}$和判别器$\mathrm{D}$作为两个对手: 生成器$\mathrm{G}$将试图完美地匹配$p_{\mathrm{true}}\left(\nu|\nu_{c}\right)$并生成类似于$\nu_{c}$的真实直接邻居的相关顶点以欺骗判别器。而判别器$\mathrm{D}$则相反，会尝试检测这些顶点是$\nu_{c}$的真实邻居还是由其对手$\mathrm{G}$生成的。形式上， $\mathrm{G}$和$\mathrm{D}$在一个有以下价值函数$V(G,D)$的双人博弈中进行对抗： $\min_{\theta_G}\max_{\theta_D}V(G,D)=\sum_{c=1}^V\left(\mathbb{E}_{\nu\sim p_{\mathbf{tne}}(\nu|\nu_c)}\left[\log D(\nu,\nu_c;\theta_D)\right]+\mathbb{E}_{\nu\sim p_G(\nu|\nu_c;\theta_G)}\left[\log\left(1-D(\nu,\nu_c;\theta_D)\right)\right]\right)$ （1）上式描述的最小最大（Minimax）博弈公式是生成对抗网络的核心。在图生成对抗网络（GraphGAN）的上下文中，生成器$\mathrm{G}$的目标是生成看起来像真实数据的样本。在GraphGAN的情境下，生成器试图生成看似是$\nu_{c}$的1-hop邻居的顶点。而鉴别器$\mathrm{D}$的目标是区分输入样本是来自于真实数据还是生成器生成的假数据。在GraphGAN中，它试图区分一个顶点对$(\nu,\nu_{c})$是否是真实的1-hop邻点对。这个公式包含了两个期望（Expectations）：第一部分为真实数据的期望\(E_{v\sim p_{\mathrm{true}}\left(v\mid v_{c}\right)}\left[\log

GraphGAN Read More »

Insights \u0026 Innovations