本技术提供了一种集成机器学习图像语音识别系统及设备,包括图像采集模块,用于采集图像数据;语音采集模块,用于采集语言数据;预处理模块,用于对采集的图像数据和语音数据进行预处理;特征提取模块,用于提取预处理后的图像数据和语音数据的特征;深度学习网络,用于对图像数据和语音数据的特征进行深度学习处理;特征融合模块,用于将深度学习处理后的图像和语音高维特征通过一融合层进行融合;分类器,用于对整合后的特征进行最终分类;输出模块,用于输出最终分类的识别结果;本发明通过集成机器学习能够同时处理图像和语音数据,利用深度学习网络对这两种数据的特征进行学习,并在特征融合模块中将它们结合起来,以增强识别能力。
背景技术
深度学习已经在语音、文本、图像等单一模态领域取得了巨大的成功。这为多模态学习提供了强大的基础,使得机器能够更好地理解和处理单一类型的数据。随着单一模态研究的深入,多模态机器学习研究逐渐成为热点,尤其是在图像和文本处理方面。例如,图像字幕生成、基于文本的图像生成、视觉问答、视觉推理等方向的研究;近年来,图像处理和语言理解方面的技术突破使得融合图像和文本的多模态任务获得了广泛的关注并取得了相当大的成功;可见在当前的技术背景下,多模态图像语音识别系统正逐渐成为人工智能领域的一个研究热点。这些系统旨在通过整合图像和语音等多种数据模态,提高识别的准确性和用户体验。但是现有的图像和语音均采用单一模态进行,这样在识别时会出现识别错误的问题。为了解决上述问题,本发明中提出了一种集成机器学习图像语音识别系统及设备。
实现思路