Blog - VenusAI Lab - Page 2 of 9

Attentional Feature Fusion

2025年7月11日

基本信息 📰标题: Attentional Feature Fusion 🖋️作者: Yimian Dai 🏛️机构: Nanjing University of Science and Technology (南京理工大学) 🔥关键词: Feature Fusion, Attention […]

Attentional Feature Fusion Read More »

CANet：Coordinate Attention for Efficient Mobile Network Design

2025年7月11日

基本信息 📰标题: Coordinate Attention for Efficient Mobile Network Design 🖋️作者: Xiangyu Zhang 🏛️机构: Megvii Technology (旷视科技) 🔔关键词: Coordinate Attention, Mobile

CANet：Coordinate Attention for Efficient Mobile Network Design Read More »

ECA-Net

2025年7月10日

基本信息 📰标题: ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 🖋️作者: Qilong Wang 🏛️机构: Tianjin University（天津大学） 🔥关键词: Channel Attention,

ECA-Net Read More »

Dual Attention Network

2025年7月10日

基本信息 📰标题: Dual Attention Network for Scene Segmentation 🖋️作者: Jun Fu 🏛️机构: 中科院 🔥关键词: Dual Attention Network, Scene Segmentation 摘要概述

Dual Attention Network Read More »

CBAM: Convolutional Block Attention Module

2025年7月9日

基本信息 📰标题: CBAM: Convolutional Block Attention Module 🖋️作者: Sanghyun Woo 🏛️机构: Korea Advanced Institute of Science and Technology (KAIST, 韩国科学技术院)

CBAM: Convolutional Block Attention Module Read More »

Non-local Neural Networks

2025年7月9日

基本信息 📰标题: 非局部神经网络（Non-local Neural Networks） 🖋️作者: Xiaolong Wang 🏛️机构: Carnegie Mellon University（卡内基梅隆大学） 🔥关键词: Non-local operations, self-attention, video recognition, image classification

Non-local Neural Networks Read More »

SENet：Squeeze-and-Excitation Networks

2025年7月9日

基本信息 📰标题: Squeeze-and-Excitation Networks 🖋️作者: Jie Hu 🏛️机构: Momenta (Beijing) / 北京Momenta 🔗链接: arXiv:1709.01507 🔥关键词: CNN, SE block, channel attention,

SENet：Squeeze-and-Excitation Networks Read More »

PaLI系列多模态模型：Pathways Language and Image model

2025年5月23日

1. PaLI：一种联合尺度的多模态模型大型语言模型（LLM）凭借其强大的扩展能力和灵活的任务接口，已在众多领域展现出卓越性能。而谷歌研究院提出的PaLI（Pathways Language and Image model）将这一成功经验延伸到了多语言，多模态领域，构建了一个能够同时理解图像与文本的通用智能系统。 1.1 模型核心设计 PaLI的创新在于其统一的生成式架构：研究人员特别发现，视觉与语言模块的协同扩展至关重要。由于传统视觉模型的规模远小于语言模型，团队专门训练了一个40亿参数的巨型ViT（ViT-e），证明了更大容量视觉模型对多模态性能的提升作用。数据与训练为训练PaLI，团队构建了迄今规模最大的多模态数据集之一： 1.2 模型架构在传统AI系统中，不同的任务往往需要不同的模型来处理——例如： PaLI通过统一的文本生成接口打破了这一界限：输入：任意图像 + 文本指令输出：自由格式文本（可适配所有任务）这种设计灵感来自OFA等前沿工作，但PaLI进一步通过纯提示词（prompt）区分任务类型，无需为不同任务定制模型结构。如下图所示： PaLI团队训练了截至论文发表时已知的最大的纯视觉Transformer（ViT-e），其核心创新包括：

PaLI系列多模态模型：Pathways Language and Image model Read More »

Uni-Perceiver系列: 基于双编码器的多模态通用模型

2025年5月14日

1.引用这篇论文提出了一种名为 Uni-Perceiver 的通用感知架构，旨在解决当前机器学习任务特定范式的局限性，并模仿生物智能系统的多模态整合与并行处理能力。当前机器学习模型通常针对单一任务独立设计，导致任务间协作效率低且开发新任务的边际成本较高。相比之下，生物系统能够高效整合视觉、听觉等多模态信息，同时处理多种任务。Uni-Perceiver 通过统一建模和共享参数实现了多模态（如图像、文本、音频）和多任务（如分类、检测、生成）的协同处理。其对比如下图1所示：模型层面，Uni-Perceiver 的核心设计包括三个部分：一是模态无关的Transformer编码器，将不同模态的输入和目标映射到统一表示空间；二是轻量级模态特定分词器，用于将原始数据转换为模型可处理的token，仅需少量参数适配；三是任务统一建模，所有任务均被转化为输入与目标的表示相似度计算问题。在预训练阶段，模型通过多种单模态和多模态任务学习通用表示；在下游任务中，它支持零样本推理、少量数据提示调优和全数据微调。实验表明，预训练模型在未见任务上表现合理，而仅用1%下游数据调优即可接近SOTA性能，全微调后甚至能超越现有最佳方法。这一研究的创新点在于通过统一任务建模和参数共享，显著降低了多任务开发的边际成本，同时提升了模型的泛化能力。Uni-Perceiver 的灵活部署方式（零样本、提示调优、全微调）使其适用于不同资源场景，为构建通用AI系统提供了新思路。未来研究可进一步探索模态统一与任务性能的平衡，以及计算效率的优化。论文作者还开源了代码和预训练权重，推动了通用感知模型的后续发展。总体而言，这项工作在多模态多任务学习领域迈出了重要一步，为高效、通用的机器学习模型设计提供了重要参考。最后，uni-perceiver是一个系列模型，也包括uni-perceiver，uni-perceiverV2，本博文都会提及。原文链接如下： 2. Uni-Perceiver 模型不同模态的数据，在送进模型之前要进行Token化，即Embedding。输入Token化具体来说：模型的输入序列可以自由组合不同模态的Token，例如：所有模态的Token序列都由同一个Transformer模型处理，输出统一语义空间中的特征。不同任务（如分类、检索）通过比较输入和目标的特征相似度来实现（例如：计算最大似然得分）。如下图所示： UniPerceiver的核心设计思想——用同一个模型处理不同任务（如分类、检索），且支持文本、图像、视频等多种输入形式。其关键是通过最大化输入与目标的联合概率来统一建模，具体来说，无论什么任务（例如图像分类、视频检索），都可以抽象为：模型的目标是找到与输入最匹配的 $\mathbf{y}$ ，公式表示为：

Uni-Perceiver系列: 基于双编码器的多模态通用模型 Read More »

BEiT：初探大一统多模态框架

2025年5月9日

1. 引言近年来，语言、视觉和多模态预训练技术正加速融合，仿佛AI领域的”三国归一”。在这场变革中，BEIT-3横空出世——一个号称”通用多模态基础模型”的全能选手，不仅在图像识别、文本理解等单模态任务上表现惊艳，还能轻松玩转图文问答、跨模态检索等复杂挑战。论文地址：http://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Image_as_a_Foreign_Language_BEiT_Pretraining_for_Vision_and_CVPR_2023_paper.pdf 🔧 三大创新：如何实现”大一统”？ 🏆 实战成绩单：屠榜多模态任务在8项权威测试中，BEIT-3全部刷新纪录：类似CoCa工作，BEiT-3的作者团队也给出了一张非常直观且夸张的性能图，如下所示： 2. 相关工作 2.1 模型架构在视觉-语言任务中，Transformer 的应用方式多种多样，取决于具体需求： ⚠️ 现有方法的痛点虽然这些架构各有优势，但大多数基础模型（Foundation Models）面临两大问题： BEIT-3 的解决方案：多路 Transformer（Multiway

BEiT：初探大一统多模态框架 Read More »

Insights \u0026 Innovations