基于SAM 2的视频概念解析技术
2025-02-21 16:34
No.1342534854449045504
技术概要
PDF全文
本技术介绍了一种基于SAM 2的视频概念解析技术,涉及定义多个语义类别、收集相关语义分割数据集和提示,旨在提高视频内容理解的准确性。
背景技术
近年来,由于大规模数据集以及计算机算力的快速发展,深度神经网络被广泛应用于各种计算机视觉应用上,如语义分割、图像分类、物体检测等。然而,由于参数庞大和高度非线性的特性,神经网络对于用户来说仍然是一种黑盒。这种特性限制了对模型决策过程的理解,尤其在需要透明性和可解释性的场景中(如医疗、金融等)。 为了解决这一问题,可解释性人工智能(Amina Adadi and Mohammed Berrada. Peeking inside the black-box: a survey on explainable artificial intelligence (xai). IEEE access, 6:52138–52160, 2018.)成为一种热门的解决方案,其目的是对神经网络预测的结果进行解释。 针对二维图像分类神经网络的可解释方法中,最常见的是对图像分类结果提供像素级别或者超像素级别的解释。这其中包括利用神经网络的反向传播来评估输入特征像素对模型分类结果的影响,还包括通过对输入像素的扰动来衡量像素扰动对于图像分类结果的影响,生成像素级别的解释。然而像素级别的解释结果对于人类来说往往难以理解,缺乏对应的语义解释。近年来,利用高级概念来解释神经网络的方法引起了极大的关注,其中最具有代表性的工作是ACE(Ghorbani A , Wexler J , Zou J ,et al.Towards AutomaticConcept-based Explanations[J]. 2019.DOI:10.48550/arXiv.1902.03129.),利用特征向量将数据集中的超像素聚类成一组概念,通过自动化地识别和利用人类可理解的概念,生成全局化的解释,使模型的输出更易于解释和理解。但是ACE生成的概念化解释在大多数情况下仍然难以理解,缺乏明确的轮廓外形以及清晰的语义定义。为了更准确地定义出清晰易理解的概念信息,EAC(A. Sun, P. Ma, Y. Yuan, and S. Wang, “Explain anyconcept: Segment anything meets concept-based explanation,” Advances inNeural Information Processing Systems, vol. 36, 2024.)利用分割一切模型(Segment Anything Model,SAM)实现高质量的语义分割,自动从给定图像中提取相关概念集,同时EAC将SAM分割得到的结果概念集与可解释人工智能方法相结合,从而促进XAI任务具有较高可信度与可理解性。 尽管EAC在图像分类中展现了出色的可解释性,但在3D视频领域,由于视频数据包含大量的时空信息,简单地将SAM应用于逐帧分割并进行概念性解释不仅耗时较长,而且得到的分割结果往往未能达到预期。另一种在3D视频领域进行概念解释的方法是STCE(YingJi, Yu Wang, and Jien Kato. Spatial-temporal concept based explanation of 3dconvnets. In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition, pages 15444–15453, 2023.),该方法将ACE从2D扩展到3D视频场景。它通过对视频数据集中的时空片段进行聚类,生成全局概念集,并根据每个概念在网络预测中的贡献程度进行评分,最终为3D卷积神经网络提供全局解释。然而在视频领域,由于运动、变形、遮挡、光照变化和其他因素,实体的外观可能发生重大变化,STCE生成的概念集无法准确定义时空场景下的分割语义信息。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
肖远志  刘金飞  文龙  任奎
技术所属: 浙江大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利