近日,尊龙凯时 - 人生就是搏!网络智能研究部视觉智能研究所与中国科学院、华为公司共同合作,分别在Github和OpenI启智社区开源了高效高精度视觉表征模型—视觉状态空间模型VMamba(Paper link: http://arxiv.org/abs/2401.10166,Code link: http://github.com/MzeroMiko/VMamba,http://openi.watsons-china.com/PCL-VMamba/VMamba)。
研究团队将Mamba模型的巨大潜力拓展到视觉领域,提出了一种具有全局感受野、线性复杂度的视觉 Mamba 模型(VMamba)。该模型采用一种独特的交叉扫描(Cross-Scan)机制,首次在Mamba加速模型框架下实现了多尺度特征的高效提取,模型性能以显著优势超越了现有主流模型。这项工作标志着视觉Mamba模型Swin时刻的来临,此时距离Mamba模型提出不到两个月。目前,VMamba模型的创新性与卓越性能得到学术界充分认可,相关论文被国际著名AI开源社区Huggingface选作为Daily Papers进行展示。
图1 VMamba相关论文入选“Huggingface daily papers”
研究团队在研发VMamba的过程中,深入分析了深度学习和计算机视觉领域的关键挑战。针对卷积神经网络(CNN)与视觉Transformer(ViT)的局限性,受Mamba模型的启发,创新性地提出了VMamba模型。模型中引入了先进的Selective Scan Space State Sequential Model(S6模型),并通过独特的Cross-Scan扫描机制和2D-selective-scan(SS2D)模块,成功实现了从二次复杂度到线性复杂度的转变,同时保留了对全局信息的高度敏感性。因此,VMamba模型兼具线性复杂度和全局感受野的优势,为解决视觉识别的核心问题开辟了新途径。
图2 传统Attention机制与Cross-Scan机制比较
图3 SS2D模块示意图
VMamba模型在多个标准数据集上展现了优异的性能。尤其在ImageNet-1K数据集的分类任务中,VMamba模型的准确率达到83.5%。在COCO数据集的目标检测任务和ADE20K数据集的语义分割任务上,VMamba同样以显著优势超越了现有主流模型。
VMamba这一创新性研究成果为视觉模型的发展提供了新方向。未来,研究团队将继续推进视觉和多模态基础模型研究,为模型在各行业、多领域的人工智能发展和应用贡献力量。
【参考知识】
2023年12月,卡内基梅隆大学与普林斯顿大学合作提出了一种全新的基础模型架构—选择性状态空间模型Mamba。Mamba在语言建模方面可以媲美甚至击败 Transformer,而且它可以随上下文长度的增加实现线性扩展,在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。Mamba模型一经发布,即引起了人工智能领域的轰动,有可能撼动Transformer 在大模型领域的地位。