本申请公开了一种语料库生成方法、装置、设备及存储介质,涉及知识图谱技术领域,包括:获取原始表数据,其中,原始表数据为结构化库表格式的数据;按照预设的图表征结构对原始表数据进行映射处理,得到映射后的原始表数据;对映射后的原始表数据进行格式转换,得到原始表数据对应的键值对数据;接收外部输入的第一指令,将第一指令以及键值对数据输入预设大模型,得到预设大模型输出的知识图谱,其中,预设大模型基于第一指令中的实际转换案例将键值对数据转换为图表征结构的知识图谱;基于多个原始表数据对应的知识图谱构建语料库。本申请实现了从结构化库表数据到知识图谱的自动转换。
背景技术
近年来,知识图谱作为一种重要的知识构建和表示形式,在人工智能和数据科学领域扮演着关键的角色。
知识图谱能够以图形的形式组织实体及其之间的关系,使得机器能够理解和推理这些信息,进而支持各种高级应用,如智能搜索、推荐系统和个人助理等。然而,目前大部分原始数据仍以结构化库表为主要存储形式,这些数据通常是以二维表格的形式组织,每一行代表一个记录,每一列代表一种属性。但是,知识图谱采用的是图表征格式,即由节点和边组成的图形结构,因此结构化库表与知识图谱之间存在显著的数据格式差异,难以直接根据结构化库表构建知识图谱。
因此,如何实现结构化库表数据到知识图谱的有效转换,是目前亟需解决的一个问题。
实现思路