本技术涉及多模态大模型技术领域,解决了传统大语言模型不具备处理多方面输入信息能力的技术问题,尤其涉及一种基于多模态大模型的三维场景理解方法,包括:建立包含点云‑图像‑文本对的数据集;将数据集输入编码模块中提取点云特征、图像特征和文本特征;建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块;将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合,能够完成在3D和2D上的多种视觉语言任务,并同时支持文本和语音输入,实现了一个通用、全面、鲁棒的多模态大模型。
背景技术
近年来,大语言模型(LLM)所展现的强大的逻辑推理和语义理解能力,同时受到了学术界和工业界的关注。目前的一些工作探索了将图像与大语言模型相结合,以形成新一代多模态大语言模型,使其能够理解和推理二维世界。尽管这些模型在理解二维图像方面性能已经非常强大,但它们始终不是基于真实的三维物理世界所训练得到,其距离真正的强人工智能仍然存在差距。
真实的三维物理世界涉及更丰富的概念,如空间关系、纹理、物理特性以及交互等。因此,一些工作提出将三维世界的信息注入大语言模型中,引出全新的3D-LLM系列,它们将三维表示作为输入,并执行一系列三维相关的任务,例如3D问答,3D情景推理,视觉语言导航等。然而,一个强大的智能体需要具备处理多方面的输入信息的能力,例如,图像、文本、语音、点云等,以对场景进行更充分的理解,实现一个鲁棒、全面、通用的多模态大模型。
实现思路