本技术介绍了一种基于SAM 2的视频概念解析技术,涉及定义多个语义类别、收集相关语义分割数据集和提示,旨在提高视频内容理解的准确性。
背景技术
近年来,由于大规模数据集以及计算机算力的快速发展,深度神经网络被广泛应用于各种计算机视觉应用上,如语义分割、图像分类、物体检测等。然而,由于参数庞大和高度非线性的特性,神经网络对于用户来说仍然是一种黑盒。这种特性限制了对模型决策过程的理解,尤其在需要透明性和可解释性的场景中(如医疗、金融等)。 为了解决这一问题,可解释性人工智能(Amina Adadi and Mohammed Berrada. Peeking inside the black-box: a survey on explainable artificial intelligence (xai). IEEE access, 6:52138–52160, 2018.)成为一种热门的解决方案,其目的是对神经网络预测的结果进行解释。
针对二维图像分类神经网络的可解释方法中,最常见的是对图像分类结果提供像素级别或者超像素级别的解释。这其中包括利用神经网络的反向传播来评估输入特征像素对模型分类结果的影响,还包括通过对输入像素的扰动来衡量像素扰动对于图像分类结果的影响,生成像素级别的解释。然而像素级别的解释结果对于人类来说往往难以理解,缺乏对应的语义解释。近年来,利用高级概念来解释神经网络的方法引起了极大的关注,其中最具有代表性的工作是ACE(Ghorbani A , Wexler J , Zou J ,et al.Towards AutomaticConcept-based Explanations[J]. 2019.DOI:10.48550/arXiv.1902.03129.),利用特征向量将数据集中的超像素聚类成一组概念,通过自动化地识别和利用人类可理解的概念,生成全局化的解释,使模型的输出更易于解释和理解。但是ACE生成的概念化解释在大多数情况下仍然难以理解,缺乏明确的轮廓外形以及清晰的语义定义。为了更准确地定义出清晰易理解的概念信息,EAC(A. Sun, P. Ma, Y. Yuan, and S. Wang, “Explain anyconcept: Segment anything meets concept-based explanation,” Advances inNeural Information Processing Systems, vol. 36, 2024.)利用分割一切模型(Segment Anything Model,SAM)实现高质量的语义分割,自动从给定图像中提取相关概念集,同时EAC将SAM分割得到的结果概念集与可解释人工智能方法相结合,从而促进XAI任务具有较高可信度与可理解性。
尽管EAC在图像分类中展现了出色的可解释性,但在3D视频领域,由于视频数据包含大量的时空信息,简单地将SAM应用于逐帧分割并进行概念性解释不仅耗时较长,而且得到的分割结果往往未能达到预期。另一种在3D视频领域进行概念解释的方法是STCE(YingJi, Yu Wang, and Jien Kato. Spatial-temporal concept based explanation of 3dconvnets. In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition, pages 15444–15453, 2023.),该方法将ACE从2D扩展到3D视频场景。它通过对视频数据集中的时空片段进行聚类,生成全局概念集,并根据每个概念在网络预测中的贡献程度进行评分,最终为3D卷积神经网络提供全局解释。然而在视频领域,由于运动、变形、遮挡、光照变化和其他因素,实体的外观可能发生重大变化,STCE生成的概念集无法准确定义时空场景下的分割语义信息。
实现思路