本技术介绍了一种点云大模型的多模态动态微调技术与系统。该技术基于目标大模型,涉及将点云数据转换为点云序列和2D深度图,并将文本数据添加占位符以供后续步骤使用。
背景技术
点云大模型在3D视觉检测的下游任务中扮演着关键角色,但由于收集和标注高质量的3D点云数据既耗时又昂贵,微调点云大模型以适应下游任务,面临着数据量不足的问题,这限制了深度学习模型的训练效果。现有的微调方法虽然能够提升模型在特定任务上的性能,但使用传统方法,如全量微调大模型,在数据有限的情况下容易遇到过拟合的风险,同时由于大模型拥有大量的参数需要更新,消耗了大量的计算资源,这使得它们在实际应用中受到限制。
公开号为CN117252986A、名称为一种三维预训练大模型参数高效型微调方法及系统的专利公开了技术特征:对三维点云数据进行分块并编码,形成点云令牌序列;以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并在预训练模型的编码器模块中,将可学习提示令牌添加至点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对可学习提示令牌进行增强;通过几何感知适配器对强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;将调整后的令牌输入下游任务头,得到预测输出。
公开号为CN118314566A、名称为点云3D检测模型的训练方法、点云3D检测方法及装置的专利公开了技术特征:获取点云数据;将点云数据输入预训练模型的主分支网络和旁路分支网络,通过固定主分支网络的网络参数,更新旁路分支网络的网络参数的训练方式,对预训练模型进行训练,得到点云3D检测模型。
以上现有专利公开的技术方案的主要缺点可以概括为:
1.现有方法通常需要大量的特定任务点云数据来微调模型,这不仅计算成本高昂,而且在数据量不足的情况下还可能导致模型出现过拟合现象。
2.动态调整能力不足:现有技术缺乏根据有限数据进行有效动态调整的能力,这限制了模型在新任务或数据分布上的适应性和灵活性。
3.跨模态知识利用不足:点云包含跨模态信息,点云可以通过投影转换成多个视角的2D图片,蕴含丰富的额外的信息,但现有方法未能充分利用这些信息来提升模型性能,错失了提高学习和泛化能力的机会。
实现思路