Insights \u0026 Innovations

ECA-Net

基本信息 📰标题: ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 🖋️作者: Qilong Wang 🏛️机构: Tianjin University(天津大学) 🔥关键词: Channel Attention,

ECA-Net Read More »

Non-local Neural Networks

基本信息 📰标题: 非局部神经网络(Non-local Neural Networks) 🖋️作者: Xiaolong Wang 🏛️机构: Carnegie Mellon University(卡内基梅隆大学) 🔥关键词: Non-local operations, self-attention, video recognition, image classification

Non-local Neural Networks Read More »

PaLI系列多模态模型:Pathways Language and Image model

1. PaLI:一种联合尺度的多模态模型 大型语言模型(LLM)凭借其强大的扩展能力和灵活的任务接口,已在众多领域展现出卓越性能。而谷歌研究院提出的PaLI(Pathways Language and Image model)将这一成功经验延伸到了多语言,多模态领域,构建了一个能够同时理解图像与文本的通用智能系统。 1.1 模型核心设计 PaLI的创新在于其统一的生成式架构: 研究人员特别发现,视觉与语言模块的协同扩展至关重要。由于传统视觉模型的规模远小于语言模型,团队专门训练了一个40亿参数的巨型ViT(ViT-e),证明了更大容量视觉模型对多模态性能的提升作用。 数据与训练 为训练PaLI,团队构建了迄今规模最大的多模态数据集之一: 1.2 模型架构 在传统AI系统中,不同的任务往往需要不同的模型来处理——例如: PaLI通过统一的文本生成接口打破了这一界限:输入:任意图像 + 文本指令输出:自由格式文本(可适配所有任务)这种设计灵感来自OFA等前沿工作,但PaLI进一步通过纯提示词(prompt)区分任务类型,无需为不同任务定制模型结构。如下图所示: PaLI团队训练了截至论文发表时已知的最大的纯视觉Transformer(ViT-e),其核心创新包括:

PaLI系列多模态模型:Pathways Language and Image model Read More »

Uni-Perceiver系列: 基于双编码器的多模态通用模型

1.引用 这篇论文提出了一种名为 Uni-Perceiver 的通用感知架构,旨在解决当前机器学习任务特定范式的局限性,并模仿生物智能系统的多模态整合与并行处理能力。当前机器学习模型通常针对单一任务独立设计,导致任务间协作效率低且开发新任务的边际成本较高。相比之下,生物系统能够高效整合视觉、听觉等多模态信息,同时处理多种任务。Uni-Perceiver 通过统一建模和共享参数实现了多模态(如图像、文本、音频)和多任务(如分类、检测、生成)的协同处理。其对比如下图1所示: 模型层面,Uni-Perceiver 的核心设计包括三个部分:一是 模态无关的Transformer编码器,将不同模态的输入和目标映射到统一表示空间;二是 轻量级模态特定分词器,用于将原始数据转换为模型可处理的token,仅需少量参数适配;三是 任务统一建模,所有任务均被转化为输入与目标的表示相似度计算问题。在预训练阶段,模型通过多种单模态和多模态任务学习通用表示;在下游任务中,它支持零样本推理、少量数据提示调优和全数据微调。实验表明,预训练模型在未见任务上表现合理,而仅用1%下游数据调优即可接近SOTA性能,全微调后甚至能超越现有最佳方法。 这一研究的创新点在于通过统一任务建模和参数共享,显著降低了多任务开发的边际成本,同时提升了模型的泛化能力。Uni-Perceiver 的灵活部署方式(零样本、提示调优、全微调)使其适用于不同资源场景,为构建通用AI系统提供了新思路。未来研究可进一步探索模态统一与任务性能的平衡,以及计算效率的优化。论文作者还开源了代码和预训练权重,推动了通用感知模型的后续发展。总体而言,这项工作在多模态多任务学习领域迈出了重要一步,为高效、通用的机器学习模型设计提供了重要参考。 最后,uni-perceiver是一个系列模型,也包括uni-perceiver,uni-perceiverV2,本博文都会提及。原文链接如下: 2. Uni-Perceiver 模型 不同模态的数据,在送进模型之前要进行Token化,即Embedding。 输入Token化 具体来说: 模型的输入序列可以自由组合不同模态的Token,例如: 所有模态的Token序列都由同一个Transformer模型处理,输出统一语义空间中的特征。不同任务(如分类、检索)通过比较输入和目标的特征相似度来实现(例如:计算最大似然得分)。如下图所示: UniPerceiver的核心设计思想——用同一个模型处理不同任务(如分类、检索),且支持文本、图像、视频等多种输入形式。其关键是通过最大化输入与目标的联合概率来统一建模,具体来说,无论什么任务(例如图像分类、视频检索),都可以抽象为: 模型的目标是找到与输入最匹配的 $\mathbf{y}$ ,公式表示为:

Uni-Perceiver系列: 基于双编码器的多模态通用模型 Read More »

BEiT:初探大一统多模态框架

1. 引言 近年来,语言、视觉和多模态预训练技术正加速融合,仿佛AI领域的”三国归一”。在这场变革中,BEIT-3横空出世——一个号称”通用多模态基础模型”的全能选手,不仅在图像识别、文本理解等单模态任务上表现惊艳,还能轻松玩转图文问答、跨模态检索等复杂挑战。 论文地址:http://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Image_as_a_Foreign_Language_BEiT_Pretraining_for_Vision_and_CVPR_2023_paper.pdf 🔧 三大创新:如何实现”大一统”? 🏆 实战成绩单:屠榜多模态任务 在8项权威测试中,BEIT-3全部刷新纪录: 类似CoCa工作,BEiT-3的作者团队也给出了一张非常直观且夸张的性能图,如下所示: 2. 相关工作 2.1 模型架构 在视觉-语言任务中,Transformer 的应用方式多种多样,取决于具体需求: ⚠️ 现有方法的痛点 虽然这些架构各有优势,但大多数基础模型(Foundation Models)面临两大问题: BEIT-3 的解决方案:多路 Transformer(Multiway

BEiT:初探大一统多模态框架 Read More »

Scroll to Top