本技术公开了一种基于跨模态检索的交通大模型智能交通事件识别方法,包括:将待识别交通事件的图像及其文本描述输入交通事件识别网络模型;交通事件识别网络模型:视觉特征提取模块用于提取图像中视觉特征;文本特征提取模块用于提取文本描述中文本特征;视觉选择性过滤模块用于选择性过滤无相关性的视觉提取特征得到视觉过滤特征;文本选择性过滤模块用于选择性过滤不必要的文本提取特征得到文本过滤特征;跨模态选择性对齐模块用于对视觉、文本提取特征进行跨模态对齐得到视觉对齐特征和文本对齐特征;计算模块用于将视觉过滤特征和视觉对齐特征及将文本过滤特征和文本对齐特征进行融合来确定识别结果。本发明提高了检索识别的准确性和效率。
背景技术
随着城市交通系统的日益复杂,交通事件的频发给交通管理和监控带来了巨大的挑战。然而,准确的交通事件识别可以有效地解决这些问题,并为交通管理部门提供宝贵的参考信息。首先,准确的交通事件识别可以帮助交通管理部门更好地协调交通资源和应急措施。通过对交通场景图像与文本描述等多模态数据进行跨模态检索识别与定位,管理部门可以实时掌握道路状况,合理安排警力和救援设备,灵活调整交通管制策略。这不仅可以保障道路安全和畅通,还能最大限度地提高交通资源的利用率。其次,通过智能识别交通事件,可以及时发现交通事故、拥堵和违规行为,迅速采取措施,减少交通延误和事故发生。这种精细化管理方式有助于优化交通流量,提升公众出行体验。通过高效的交通事件识别,减少了对人力监控的依赖,在合理规划交通基础设施和优化资源配置方面节约了费用支出。
现有的跨模态检索技术大多基于深度学习,主要分为粗粒度匹配和细粒度匹配。其中,细粒度匹配的方法能够更精确地捕捉图像和文本之间的细微对应关系。比如:一种基于注意力机制的细粒度匹配方法,其基本思路为:引入注意力机制,动态关注图像和文本中的关键特征,根据其重要性进行权重分配,以提高匹配的准确性。通过这种方式,模型可以更有效地对齐图文之间的细节信息;一种基于图神经网络的细粒度匹配方法,其基本思路为:将图像和文本的特征表示构建成图结构,利用图神经网络来捕捉多模态数据之间的复杂关系和结构信息;通过在图上进行信息传播和特征聚合,模型能够更深入地理解和关联不同模态的数据,从而提升跨模态检索的性能。这些方法在处理交通事件的复杂性和多样性方面表现出色,有助于提高交通事件识别与定位的精度与效率。
但是,以上现有方法存在不足:在基于注意力机制的细粒度匹配方法中,并非每张图像都包含有效区域,句子中的每个词也不一定都有助于语义对齐,无用的图像区域和无意义的字词(如介词)可能导致多余的语义关联与对齐,降低了跨模态表示对齐的一致性;在基于图神经网络的细粒度匹配方法中,基于图学习的网络虽然能捕捉模态间复杂关系,但在大规模数据处理时,计算资源消耗大,训练效率低。
实现思路