SAM 模型:CV 领域的ChatGPT
SAM:“分割一切”的 AI 新模型
2023 年 4 月,Meta 发布了全新的 AI 模型 Segment Anything Model,即SAM。官网对该模型的描述为:“只需一次点击,便可在任何图像中分割出任何物体”。Segment Anything 文章指出,SAM 建立了一个基础图像分割模型,并在一个巨大的数据集上进行训练,从而试图解决一系列下游任务,成为一种通用的模型。论文的关键词包含了:prompt(基于提示学习)、task(下游任务)、zero-shot(零样本)、data(丰富的数据集)。模型的核心要点为:(1)与 ChatGPT 的启发思想一样,采用 Prompt-based learning 的可提示学习范式,提高学习效率; (2)建立了迄今为止最大的分割数据集 Segment Anything 1-Billion(SA-1B),含 1100 万张图像,超过 10 亿个掩码,比任何现有的分割数据集多400 倍;(3)建立了通用的,全自动的分割模型,零样本灵活转化新任务,新领域,结果甚至优于之前的监督结果。
Prompt:将 ChatGPT 的学习思维应用在CV 领域
SAM 模型的学习训练方式是 prompt,来源于近年来突飞猛进的NLP 下游任务的优化过程。Prompt 代表的 prompt-based learning,即基于提示的学习,区别于传统的监督学习,被 GPT-3 团队推进使用。SAM 利用这种先进的技术路线,完成CV底层技术突破, 并且具有广泛的通用性和零样本迁移的能力。为了较深刻了解 prompt,本节对 NLP、PLM 及其他相关模型做简单介绍。
Prompt 之前的模型在做什么
自然语言处理(NLP, Nature Language Processing)主要研究人和计算机的交互,其中预训练语言模型(PLM,Pretrained Language Models)是较为前沿的NLP处理模型。
根据学习范式和发展阶段的不同,预训练模型可以简单划分为四代:(1)基于特征的学习(Feature-based):第一代预训练模型,根据“人的知识”设置规则来提取文本特征,以此来对文本进行编码。代表模型是TF-DIF;(2)基于结构的学习(Architecture-based):第二代预训练模型,开启了NLP的深度学习应用。代表模型是 W2V; 一二代预训练模型的共同点是模型的输出会作为下游任务的输入,但本身不做下游任务,之后的模型会将预训练的结果和模型本身都投入到下游任务中。(3)基于下游微调(Fine-tuning):第三代预训练模型,采用预训练+下游微调的方式,代表模型是 BERT 和 GPT。 (4)基于提示的学习(Prompt-based):第四代预训练模型,在三代模型BERT和 GPT 的基础上做了进一步的改进。将输入信息按照特定模板进行处理,把任务重构成一个更能够充分利用预训练语言模型处理的形式。代表模型是ChapGPT,gpt3.5,SAM。 其中,三代和四代的核心都是先进行预训练,再进行下游微调。简单来说,预训练模型是培养得到的“高中毕业生”,下游任务为“高校里的专业课程”,给这批“高中毕业生”再学习与未来应用领域相关的课程,将其培养成具备专业技能和知识的“大学生”,再应对专业岗位的要求。
Prompt 的优势:实现预训练和下游任务的统一
传统、标准的 PLM + finetuning 范式(这里指三代模型)存在上下游差异大,应用不匹配的问题。预训练阶段采用的是自回归、自编码方式,而对下游微调来说,就需要大量的新数据来适应新形式。
但是,如今的模型的参数量越来越大,企业部署起来成本极高,而为了每一种下游任务都要去专门微调一个模型,会造成资源的极大浪费。整体来说,这类模型的缺点在于:1. 微调样本需求量大;2. 模型的专用性强,导致部署成本高。GPT-3 团队认为在阅读大量无监督文本后,语言模型可以“培养广泛的技能和模式识别的能力”,并有效证明了在少样本场景下,模型不需要更新任何参数,就能够实现不俗效果。在这个基础上发展 prompt 的范式。预训练+微调范式是通过大量训练让模型去适配下游任务。而 Prompt 是把下游任务统一成预训练任务的形式,以特定的模板,将下游任务的数据组装成自然语言形式,充分挖掘预训练模型本身的能力。
以情感分类任务为例,使用两种预训练模型进行处理,比如利用模型写影评、书评、读后感等。如果使用传统 Fine-tune,需要人力来准备一个微调数据集,里面必须包含各种对电影/书籍的评价,以及这些评价人工阅读后的感受(是积极的还是消极的)。这个下游微调数据集必须足够大,才能应对复杂的任务。微调数据集的大小可能远超过了预训练数据集,乃至失去了预训练的意义;而prompt使用预训练语言模型最擅长的完形填空模式等方式,让模型根据输入句,输出对MASK 位置单词的预测,推测出评价用户对这部作品究竟是持Positive(积极)还是 Negative(消极)的态度。
综上,prompt 范式的优点在于:1.可以减少模型训练的样本量,在少样本甚至零样本的情况下进行训练;2. 提高通用性,在实际使用中降本增效。如今GPT-4等大模型,已不再完全开放全部的模型参数,用户都只能通过API 接口使用模型进行预测,Prompt 工程对下游任务的重要性已无需多言。
ZSL:零样本学习降本增效,提高模型泛化能力
零样本学习能力是什么
零样本学习(zero-shot learning,ZSL)是机器学习的难题,其目标是模型对于从未见过样本的“未知物体”也能进行识别和分类。ZSL 在标记数据稀缺或获取成本高的领域有许多潜在的应用。 图 7 描述了零样本学习的经典案例:认识斑马。一个“儿童”在动物园里见过了马、熊猫、狮子、老虎等动物,但是从未见过斑马,通过老师的描述,该“儿童”了解到斑马有四条腿、黑白相间的条纹,有尾巴。最终轻松地辨认出斑马。模型也可以通过零样本学习,从见过的类别(第一列)中提取特征(如:外形像马、条纹、黑白),然后根据对未知类别特征的描述,识别未见过的类别。
SAM 的零样本学习能力得到认可
SAM 正具备这样一种零样本分割能力,它可以从各种prompt 输入(包括点、方框和文本)中生成高质量的掩膜(Mask)。学术界有多篇论文探讨了SAM 的ZSL能力,如《SAM.MD: Zero-shot medical image segmentation capabilitiesoftheSegment Anything Model》测试了 SAM 的 ZSL 效果,在图像分割任务中输入了部分点和框作为 prompt 提示,结果显示:专家用户可以通过SAM 实现大部分场景下的快速半自动分割。虽然在实验中 SAM 没有表现出领先的全自动分割性能,但可成为推动临床医生半自动分割工具发展的潜在催化剂,预示了这类模型进一步适应复杂医疗领域的无限可能性。
总的来说,ZSL 在没有任何训练数据的情况下,也可以完成一些任务。这种技术在大模型发展中具有重要意义。随着大模型的发展,模型的参数数量和计算量不断增加,需要更多的数据来训练。但是数据收集和标注是非常耗时和昂贵的。ZSL技术可以减少对数据的依赖,从而降低了训练成本。同时,ZSL 技术还可以提高模型的泛化能力,使其能够处理更多的任务。
SA-1B:迄今为止最大的分割数据集,助力模型增效
Data Engine:使用数据引擎生成掩码
SAM 使用数据集进行训练,标注者使用 SAM 交互式注释图像,反过来更新SAM;形成闭环成长,且收集新的分割掩码比以前更快。 基于这种方法,SAM 建立数据引擎,采用新颖的数据收集方法,将模型和标注人员结合起来,最大限度提高数据收集的效率和质量。一共分为3 个阶段:
(1)模型辅助的手工注释阶段。在这个阶段,标注人员使用SAM 模型作为辅助工具,通过点击、框选或输入文本等方式来生成 MASK,且模型根据标注人员的输入实时更新 MASK,并提供一些候选 MASK 供标注人员选择和修改。这样,标注人员可快速精确分割图像中的对象,不需要手动绘制。这个阶段的目标是收集高质量MASK 用于训练和改进 SAM 模型;
(2)半自动阶段。在这个阶段,SAM 模型已经有了一定的分割能力,可以自动对图像中的对象进行预测。但是由于模型还不够完善,预测的MASK 可能存在错误或者遗漏。标注人员的主要任务是收集更多的检查和修正模型的预测结果,保证MASK 的准确性和完整性。这个阶段的目的是收集更多的掩码,用于进一步提升SAM模型的性能和泛化能力。
(3)全自动阶段。这个阶段 SAM 模型已经达到了较高的水平,可以准确分割出图形中的所有对象,不需要任何人工干预。因此,标注人员的工作就变成了确认和验证模型输出,保证没有任何错误。这个阶段的目标是利用SAM 模型的自动化标注能力,快速扩充数据集的规模和覆盖范围。
Data Set:使用数据引擎生成掩码
SAM 团队通过这种“模型辅助的手工注释—半自动半注释—模型全自动分割掩码”的渐进式方式收集掩码。最终成功地创建了规模空前、质量优良、多样化丰富、隐私保护的图像分割数据集 SA-1B。该数据集: (1)包含了 1100 万张多样化、高清晰度、隐私保护的照片(明确为相机拍摄),照片由一家大型图片公司提供并授权,在数据许可证允许的前提下,可用于计算机视觉研究; (2)包含 11 亿个精细的分割 Mask(掩码),这些Mask 是由Meta 开发的数据引擎(Data Engine)自动生成的,展示了该引擎强大的自动化标注能力;(3)每张图像的平均分辨率为 1500×2250 像素,每张图像包含约100 个Mask。(4)比现有的分割数据集多 400 多倍;比 COCO 完全手动的基于多边形的掩码标注快 6.5 倍,比以前最大的数据标注工作快 2 倍。
这个数据集旨在训练一个能够从开放世界图像中分割任何物体的通用模型。数据集不仅为 SAM 模型提供了强大的训练基础,也为图像分割领域提供了一个新的研究资源和基准。此外,SAM 的论文对数据集进行了RAI(responsible AI,人工智能的责任性)分析,认为 SA-1B 的图像相比之前的分割数据集具有更强的跨区域代表性,大部分国家的图片都超过了 1000 张。
SAM 核心优势:减少训练需求,提升分割性能
SAM 的核心愿景为:减少对于特定任务的专业建模知识要求,减少训练计算需求,减少自己标注掩码的需求,在“不会/少会、不标注/少标注、不训练/少训练”的情况下分割目标。 SAM 主要通过以下三种手段来逐步实现图像领域的“通用分割大模型“,(1)数据的规模和质量。SAM 通过使用零样本迁移能力,在不同的数据源和任务上收集了大量的高质量的图像分割数据(1100 万张图像和11 亿个掩码(Mask)),构建了 SA-1B 数据集,这是目前最大的图像分割数据集,远远超过了之前的数据集。 (2)模型的效率和灵活性。SAM 主要借鉴了 Transformer 模型架构,采用注意力机制和卷积神经网络,实现了一个高效且可提示的图像分割模型,可以处理任意大小和比例的图像,并且可以根据不同的输入提示生成不同的分割结果。
(3)任务的泛化和迁移。SAM 通过使用可提示分割任务(prompt segmenttasks),实现了一个可以零样本迁移的图像分割模型,可以适应新的图像分布和任务,而无需额外的训练数据或微调。这使得 SAM 可以在多个图像分割任务上表现出色,甚至超过一些有监督的模型。 目前模型已经实现的功能有:1)SAM 已经学会了物体的概念;2)可以为图像或者视频中的物体生成掩码,甚至没有见过;3)通用性很强;4)支持用户使用各种交互性的方式来分割图像和视频,如全选分割自动识别图像内所有物体、框选分割将用户想选定的部分框选出来即可完成分割。
总的来说,SAM 是一个具有划时代意义的模型,它为图像分割领域提供了一个新的范式和思路,也为计算机视觉领域的基础模型研究提供了一个新的视角和方向。
基于 SAM 二次创作,衍生模型提升性能
自从 SAM 发布以来,已引起 AI 届的广泛关注和讨论,产生了一批衍生模型和相关的应用。如 SEEM 模型,MedSAM 模型等,可以应用在工程、医学影像、遥感图像和农业等领域。
SEEM:交互、语义更泛化,分割质量提升
SEEM(Segment everything everywhere at once)是研究者基于SAM 提出的新的交互模型,利用 SAM 强大的零样本泛化能力,实现对任意图像中的所有物体进行分割。研究者提出了一种新的分割框架,将 SAM 与一个检测器结合,通过给SAM提供检测器输出的边界框作为输入提示,从而生成对应物体的掩码。SEEM能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等等),一次性分割图像或视频中的所有内容,并识别出物体类别。 (1)论文已在多个公开数据集上进行实验,在分割质量和效率上都优于SAM;(2)SEEM 是第一个不仅支持经典分割任务,还支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大的组合功能。(3) 能直接输入参考图像并指出参考区域,对其他图像进行分割,找出与参考区域一致的物体。该性能具有分类识别特质; (4) 视频中的零样本分割功能。使用第一帧以及用户输入的涂鸦等,在模糊或者剧烈变形的视频中也可以准确分割参考对象。该功能可在道路场景、运动场景等应用中体现。
MedSAM:提升感知力,应用医学图像分割
医学图像由于多样的成像模式、精细的解剖结构、不明确且复杂的边界以及广泛的物体尺度等,在图像分割上具有较大的挑战性。为了测评SAM 对医学影像分割的性能,深圳大学等多所高校联合整理了一个迄今为止最大规模的医学影像分割数据集 COSMOS 553K,并基于该数据集率先对 SAM 进行了全面、多角度、大规模的细致评估。
评估结果显示,尽管 SAM 有可能成为一个通用的医学影像分割模型,但它在医学影像分割任务中的表现目前还不稳定,特别是全自动Everything 的分割模式不适用于大多数医学影像分割任务,在这种模式下,SAM 对医学分割目标的感知能力较差。
因此,SAM 在医学影像分割的研究重点应该在如何有效地使用少量医学影像来微调 SAM 以提高模型的可靠性,搭建属于医学影像的 Segment Anything 模型。MedSAM为将 SAM 应用到医学影像分割的研究,该研究提出了一种简单的微调方法来适应SAM 到通用的医学影像分割任务,并在 21 个三维分割任务和9 个二维分割任务上进行了全面的实验,证明 MedSAM 分割效果优于默认的SAM 模型。
SAM-Adapter:阴影检测再升级,伪体分割更精准
除了医学影像分割难度较大之外,阴影检测和伪装物体分割任务对于SAM来说是比较困难的,因为它们涉及到一些细微的视觉线索和复杂的背景。《SAM Struggles in Concealed Scenes -- Empirical Study on "Segment Anything“》这篇技术报告选取了当前伪装目标分割领域中三个常用的数据集合,在无提示的情况下测试了基于三种不同骨架的 SAM 模型的分割性能。结果显示:1)在自然场景中,SAM 模型分割隐蔽动物具有一定难度,且难以准确定位;2)在工业场景下,SAM 仍然无法做到“分割一切”,比如难以区分缺陷区域和纹理背景之间的差异性。
因此,解决 SAM 在某些分割任务中表现不佳的问题非常重要。《SAM FailstoSegment Anything? – SAM-Adapter: Adapting SAM in Few-shot Learning》提出了一种基于少样本学习的适配方法。该方法没有对SAM 网络进行微调,而是提出了 SAM-Adapter,它通过使用简单而有效的适配器将特定领域的信息或视觉提示纳入分割网络,从而提高其在阴影检测和伪装物体分割等任务上的性能。
SAM-Track:扩展 SAM 应用领域,增强视频分割性能
SAM 模型展现了强大的图像分割能力,但缺乏对视频数据的支持。然而,浙江大学 ReLER 实验室的科研人员最新开源的 SAM-Track 项目,提升了SAM 的视频分割能力,即:分割并跟踪任何物体(Segment-and-track anything)。SAM-Track在单卡上就能够支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等多种场景,能够同时追踪超过 200 个物体,为用户提供了强大的视频编辑能力。 SAM-Track 扩展了 SAM 模型的应用领域,使其可以更好地应对视频数据的挑战。相比于传统的视频分割技术,SAM-Track 具有更高的准确性和可靠性。它能够自适应地识别不同场景下的物体,并进行快速而精确的分割和跟踪。这让用户可以轻松地进行视频编辑和后期制作,得到更加出色的视觉效果。总之,SAM-Track 是基于 SAM 的有意义的研究成果,为视频分割和跟踪领域的研究和应用提供了新的可能性。它的出现将会为视频编辑、后期制作等领域带来更多的机会和挑战。
SAM 及衍生模型赋能多场景应用
SAM 模型是一种高效且准确的图像分割模型,其应用能够为计算机视觉相关的行业和赛道提供更快和更准确的图像指示识别能力。根据应用难度的不同,可以将SAM 的应用落地区分为以下三个方面: 首先是工业机器视觉。在这个行业中,图像识别与处理已经得到了广泛的应用。SAM 模型的赋能可以带来降本增效,可以大大缩短训练时间和减少对数据的依赖。其次是 AR/CR 行业、自动驾驶、安防监控等赛道,需要捕捉和分割动态图像,基于 3D 重建等、对技术、算力的要求较高。且可能涉及数据、算法的伦理与隐私问题,应用落地需要一定时间;
此外,SAM 也有分割任务实现较为困难的场景,在这方面SAM 衍生模型的发展突破,后续将能对遥感,医学影像处理产业带来巨大推推动。如:(1)医学图像具有多样的模态、低对比度、噪声干扰等特点。SAM 可以通过简单的微调来适应通用的医学图像分割,或通过输入提示来实现特定医学目标分割;(2)阴影检测和伪装物体分割任务涉及微小的视觉线索且背景复杂,对于SAM比较困难的。因此,SAM 可以通过利用少量标注数据,few-shot 训练一个适配器模块,来调整其输出,从而改善其分割效果,应用于遥感图像、农业等领域。最后,SAM 还可以作为基础模型,与其他模型或系统结合:例如SAM 可以与一个分类器结合,实现对任意图像中的所有物体进行检测和识别;或者与一个生成器结合,实现对任意图像中的任意物体进行编辑和转换等。这种结合能够提高图像识别和分割的准确性和效率,为不同行业带来更多应用场景。
基于 3D 重建,赋能 AR、游戏
在 AR/VR 领域,SAM 模型可以基于 3D 重建技术,为用户提供更加沉浸式的视觉体验。通过该模型,用户可以根据自己的目光选择一个物体,并将其转化为3D空间中的实体物体。 具体来说,SAM 模型结合了 3D 重建技术和图像处理算法,能够将2D 图像转化为3D 场景,从而实现对真实世界的还原和模拟。用户可以通过AR 或VR 设备观察和操控这些 3D 场景中的物件,享受高度沉浸式的互动体验。
此外,SAM 模型还能够通过深度学习算法,对用户的视线和手势进行识别和跟踪,实现更加智能化的互动方式。例如,当用户注视某个物体时,SAM 可以自动聚焦并为其提供更加详细的信息。同时,当用户做出手势操作时,SAM 也能够快速响应并实现对场景的调整和变化。 总之,SAM 模型基于 3D 重建技术的应用赋能了 AR 和游戏等领域,为用户提供了更加沉浸式和智能化的虚拟体验。随着技术的不断进步和应用场景的不断扩展,SAM 模型在未来将会有更加广泛的应用前景。
跟踪运动物体,赋能安防监控
SAM 是一种高效且准确的图像分割模型,其能力在视频和动态图像分割方面得到了强化,并衍生出了 SEEM 和 SAM-Track 两种应用。这些衍生模型充分借鉴了SAM的零样本泛化能力,使得使用参考图像及用户输入的涂鸦、文字等信息,在模糊或者剧烈变形的视频中也可以准确地分割参考对象。如图 29 所示,SEEM 可以在跑酷、运动和游戏等视频中准确分割指定对象。对于这些运动场景的视频,传统的图像分割算法难以处理,因为场景中存在着复杂的背景和快速移动的目标物体。但是,SEEM 模型不仅可以准确地识别参考对象,还可以消除背景干扰,从而提高分割的精度。
该功能除了在运动场景中体现之外,还可赋能安防、视频监控等赛道。在这些领域中,需要实现对视频中的物体进行精确分割,以便进行后续的识别和处理。SEEM和 SAM-Track 可以通过输入提示准确判断目标物体,并进行精确分割。这种分割功能可以为安防、视频监控等领域带来更高效、准确和智能化的处理能力。综上所述,SAM 及其衍生的 SEEM 和 SAM-Track 模型具有强大的视频和动态图像分割功能,并能够在运动场景、安防、视频监控等领域发挥重要作用。随着技术的不断进步和应用场景的扩展,这些模型在未来将会有更加广泛的应用前景。
解决长尾难题,赋能自动驾驶
在自动驾驶领域中,技术上的长尾问题是当前自动驾驶商业化进程中的主要制约因素。虽然现有技术已经实现了 90%以上道路场景的自动驾驶,但由于路面环境和车辆行驶情况的不可预测性,剩下 10%的长尾场景依然存在很大难度。这些长尾场景通常涉及到突发事件、复杂地形或气候条件等极端情况,例如强烈的降雨、暴风雪、雷电等,这些情况会对自动驾驶系统的识别和决策能力产生很大挑战。此外,在城市交通中,还有一些特殊情况需要考虑,如非机动车、行人和建筑物等存在的影响,这些都增加了自动驾驶系统的复杂度和难度。长尾场景如果不得到解决,自动驾驶就始终无法落地。为了解决长尾问题,自动驾驶技术需要集成更多的算法和传感器,并通过数据采集和深度学习等手段提高系统的智能水平。例如,可以结合雷达、摄像头、激光雷达等传感器进行数据融合,提高目标物体的识别和跟踪能力,同时可以通过深度学习算法实现对复杂场景的模拟和预测。此外,也可以引入人工智能技术,让自动驾驶系统在长尾场景中不断学习和优化,以提高其适应性和泛化能力。
在自动驾驶领域中,SAM 可以用于对车辆行驶过程中的图像进行分割,以标注出图像中的不同物体和区域。自动驾驶系统需要实时地对路面情况进行感知,以便做出合适的决策。因此,对道路标记、车道线、行人、交通信号灯等物体和区域进行准确的标注非常重要。 传统的手动标注方法需要大量的时间和人力成本,而且容易出现误差。使用SAM可以自动地进行图像分割和物体识别,从而大大减少了标注的成本;与传统的机器学习算法相比,SAM 可以更好地处理复杂的场景和变化,具有更高的准确性和稳定性。此外,SAM 还可以与其他深度学习模型结合使用,例如目标检测和路径规划等模型,从而帮助自动驾驶系统更加准确地感知和理解周围环境,以实现安全、高效的自动驾驶。例如,在行人识别和车道线跟踪中使用SAM 可以帮助自动驾驶系统更好地预测行人和车辆运动轨迹,从而避免潜在的交通事故发生。总之,SAM 是一项非常有用的技术,它可以大大减少标注成本,并提高标注的准确性和效率。在自动驾驶领域中,SAM 的应用将会越来越广泛,为自动驾驶技术的快速发展和商业化进程做出贡献。
提高分割性能,赋能遥感图像
遥感图像是一种通过卫星、飞机等遥测手段获取地球表面信息的重要手段,具有多样化、全覆盖、高精度等特点,成为现代科技发展中不可或缺的一部分。它的应用领域十分广泛,包括环境监测、自然资源管理、城市规划、灾害预警等方面。遥感的数据类型分为很多种:包括光学遥感数据、光谱数据、SAR 雷达数据、无人机数据等。遥感数据的处理一般分为 2 个部分:(1)首先是遥感地面处理系统接收来自天上的卫星数据,通过大气校正、匀光匀色、裁剪分割等处理将原始的太空图像变成可以进一步识别、处理的图像;(2)在上述的基础上,对遥感图像进一步处理,包括图像的解译等,其中解译主要完成对太空遥感图像中具体物体的识别工作,此前主要是通过人工协助完成。 遥感图像因其多样性、复杂性、数据量大等特点,在处理过程中存在很多挑战和困难。其图像处理经历了三个阶段: (1) 人工解译阶段,这个阶段完全依赖标注人员进行图像解释,人工成本高且解译成果转化率低; (2) AI+遥感阶段,这个阶段 AI 技术已经对遥感图像处理有一定的帮助,通过AI模型以及算力的支持,有效缓解了图像解译的工作痛点,同时实现了人机协同。随着遥感、测绘等对比观测平台及卫星数量不断增长,AI+遥感的结合为图像解译提供了更多可能性; (3) 随着大型神经网络模型的发布,遥感图像的解译工作有望进入到大模型阶段。
SAM 大模型作为一种新兴的图像分割技术,为处理遥感图像提供了全新的思路和方法。它基于深度学习算法,对遥感图像进行统一的分割、识别、生成,大幅提升遥感解译工作的效率;使用 SAM 模型进行遥感图像分割,可以帮助用户快速准确地生成高质量的地图和三维模型,提高环境监测和资源管理的效率和精度。此外,SAM 模型还可以支持多源数据融合,将遥感图像和其他数据结合起来,得到更全面、更精准的分析结果。遥感数据处理效率的提升也为下游的遥感应用爆发打下了良好的基础。
SAM 大模型在处理阴影、掩体分割等难度较高的分割任务时仍然面临着相当大的挑战,如在自然场景中很难准确分割出隐蔽动物的区域并进行定位。遥感图像分割任务涉及一些微妙的视觉线索和复杂的背景,需要模型具有更高的感知力和识别能力,这导致 SAM 模型无法做到“分割一切”,尤其是在处理一些细节方面还需要进一步提高其性能。但是,可以通过不断改进和优化来提高其性能。例如,可通过引入更多的数据集进行训练,或采用更加先进的神经网络架构来提升模型的感知力和识别精度,SAM 的衍生模型SAM-adapter 也可以通过增加适配器的方式解决 SAM 在某些分割任务中表现不佳的问题,以及下文介绍的RS-promter:
在 SAM 发布之后,有专家团队二次创作了基于 SAM 基础模型的遥感图像实例分割的 prompt learning 方法,这使得 SAM 能够为遥感图像生成语义可辨别的分割结果,该方法称之为 RSPrompter。它与原始的 SAM 不同,不需要手动制作prompt,RSPrompter 的目标是自动生成 prompt,以自动获取语义实例级掩码。此方法不仅适用于 SAM,还可以扩展到其他基础模型。从实现上,该团队提出了两种方案:基 于 预 设 锚 点 的 RSPrompter-anchor 和 基 于查询与最优传输匹配的RSPrompter-query。
为验证 RSPrompter 的效果进行了系列的实验。这些实验不仅证明了每个组件的有效性,还在三个公共遥感数据集上显示出其对比其他先进实例分割技术以及基于SAM 的方法都有优越的性能。
此外,大模型为遥感图像领域的研究和应用带来了新的驱动力和挑战。大模型在基于 SAR、光学、多光谱卫星、无人机航拍等多模态时空遥感数据领域具有广泛的应用,可以依托开源大模型基础结构,面向遥感数据进行定制化模型研发,实现一站式、全流程遥感大模型构建能力;其次,通过支持亿级模型参数和标注数据量下降,大模型可以实现更高效、精准的遥感数据处理和分析,并赋能影像智能检索与推送、地物智能提取采编、数字孪生产品线等领域;在未来还要将大模型训练与小模型部署相结合,达到更好的落地应用。总的来说,传统的图像处理方法在面对遥感影像处理的挑战时,常常难以满足实际需求,不能够达到高精度和高效率的要求。因此,采用大型模型来处理遥感图像已经成为当前研究的一个重要方向。SAM 模型赋能遥感图像,具有重要的意义和应用价值。它为遥感图像领域的研究和应用带来了新的机会和挑战,也为人们更好地认识和利用地球资源提供了更好的技术支持。
算力应用驱动,赋能机器视觉
机器视觉的功能主要归类为四种:识别、测量、定位、检测。1)识别:基于目标物的特征进行甄别,例如外形、颜色、字符、条码等,要求高速度和高准确度;2)测量:将图像像素信息标定成常用的度量衡单位并在图像中精确计算出目标物的几何尺寸。复杂形态测量+高精度是机器视觉的优势领域; 3)定位:获取目标物体的二维或者三维位置信息。定位精度和速度是主要参考指标; 4)检测:一般指外观检测,内涵种类繁多。如产品装配后的完整性检测、外观缺陷检测(如是否有划痕、凹凸不平等)。
机器视觉是“智能制造之眼”,作为关键零部件广泛应用于工业自动化领域。典型的机器视觉系统包括:光源及光源控制器、镜头、相机、视觉控制系统(视觉处理分析软件及视觉控制器硬件)等,按照技术可分为基于硬件的成像技术和基于软件的视觉分析技术。 机器视觉发展受到四大核心驱动力的影响,包括成像、算法、算力和应用。在这四个方面,每个都对机器视觉的发展产生了不可或缺的推动作用:
(1)应用驱动:传统制造业逐步采纳机器视觉技术,提高了其渗透率,同时新兴行业的崛起增加了机器视觉需求。例如,在智能制造领域,机器视觉技术可以帮助企业实现自动化生产,提高生产效率和产品质量;在智能医疗领域,机器视觉技术可以辅助医生进行诊断和治疗,提高医疗水平和治疗效果。(2)算力/算法驱动:自 21 世纪起,CPU 算力大幅增长,尤其是2016 年后AI算法迅速进化,为机器视觉技术的发展带来推动。高性能计算设备强化了其计算能力,使图像处理更高效。AI 算法进展,如深度学习,为机器视觉在图像识别与分析上开创了更多可能。 AI 大模型的引入为机器视觉产业带来了技术底层的重大突破。目前,机器视觉领域的先进技术包括深度学习、3D 处理与分析、图像感知融合以及硬件加速图像处理等。这些技术和模型提升了机器视觉
AI 在机器视觉中的主要应用包括: 1)物体检测和识别:用深度学习网络,如 CNN,识别图像中的对象。2)图像分类:适用于病变图像识别或图片库整理。3)场景理解:除识别物体,还分析对象间的关系,关键于机器人导航或监控系统。4)图像增强和恢复:如用超分辨率技术提高图像质量。5)实时分析:适用于实时监控领域。 6)异常检测:在工业中预测故障或进行质检。 7)3D 重建和增强现实:从 2D 提取 3D 信息或结合真实与虚拟对象。还有如 OCR、情感分析、手势识别等的应用。总之,AI 赋予机器视觉“理解”其所“看到”的能力,创造无数新机会。 SAM 是视觉领域重要的 AI 大模型,应用 SAM 可推进机器视觉领域的创新和进步。SAM 可直接应用在智慧城市中,提高交通监测、人脸识别等的效率;也可在智能制造中,增强视觉检测和质量控制;此外 SAM 可以与OVD(Open-VocabularyDetection)技术结合自动,增强 SAM 的语义理解能力,自动地生成SAM需要的box 信息,强化用户交互。
投资分析
AI 大模型驱动了空天信息产业的发展,通用性遥感大模型技术成为一种必然趋势。遥感图像解译工作正逐步迈向遥感大模型阶段,特别是随着SAM 大模型的推出。与此前受限于人工成本和模型泛化能力不足的传统方法相比,大模型展现出对遥感图像进行统一的分割、识别和生成的潜力,从而极大提升解译效率。此外,在目标检测和要素分割领域,大模型展现出了显著的鲁棒性,有效地降低了工作量。效率的增加、工作量的减少也为下游遥感应用的拓展带来益处,如地球环境检测、特种领域地形构建等。
航天宏图发布天权大模型,可应用于多个领域。天权遥感大模型结合了CV和NLP技术,专为遥感解译设计,如光学遥感、光谱数据、SAR 雷达和无人机数据等多种类型的遥感数据。经过多阶段的开发和优化,其功能强大,能够交互式自动提取分割图像,增强样本标注业务,提高模型的通用识别能力以及能够自动学习生成物体。此外,未来还将推出 PIE-Engine studio,实现代码的自动生成。基于“天权”大模型的智能问答应用是面向遥感领域的人机对话协作系统,提供感知交互式的知识检索和内容生成能力,赋能国防安全、应急管理、交通水利、国土资源等多个领域。
中科星图推出空天灵眸大模型,构建第二增长曲线。中科星图与空天院成功联手研发了名为“空天灵眸”的大模型。这一模型是基于transformer 算法和自监督训练机制构建的。作为一个基座模型,空天灵眸可以通过下游的微调(fine-tuning)实现更广泛的应用发展。例如,利用 dataplog 的数据基础,它能够在全国范围内精确提取建筑物的轮廓和高度,进一步实现精细化的土地分类。该大模型极好地融合了数据和算力,因此在公开的数据集上已取得了令人满意的成果。此外,中科星图正积极投身于在线数字地球业务,利用云服务模式迅速扩展,并推出了“GEOVIS Earth 星图地球”系列产品。这成功构建了第二增长曲线,不仅标志着公司业务的线上化转型,还拓展到了教育、文旅等新的应用领域。