本技术公开了一种基于大语言模型的价值观识别数据增强方法,包括:利用大语言模型,通过角色扮演提示和链式思维提示生成与Schwartz价值理论相对应的文本数据;使用大语言模型对生成的文本数据进行质量评估,得到高质量文本数据;将所述高质量文本数据与现有数据集结合,得到新的训练集;基于新的训练集对BERT模型进行训练;利用测试集对训练好的BERT模型进行泛化能力测试,输出价值观识别结果。本发明将Schwartz价值理论作为生成和评估的价值观框架理论支持,确保了生成的数据能够与特定的人类价值观紧密结合,从而提高模型在人类价值观识别任务中的性能。
背景技术
人类价值观识别在心理学和社会学中扮演着重要角色,尤其在跨文化研究和社会行为分析中得到了广泛应用。Schwartz人类基本价值理论作为心理学领域的基石,提供了理解和分析人类行为动机的框架。通过分析人类的基本价值,研究者能够更好地解释个人和群体的行为。然而,随着人工智能(AI)技术的迅猛发展,如何使AI系统理解并尊重人类价值观成为了一个新的挑战。
在自然语言处理(NLP)领域,尤其是在人工智能应用中,人类价值识别已经成为一个具有广泛前景的研究方向。大语言模型(LLMs),如GPT-3和GPT-4,展示了其在处理复杂语言结构和理解人类价值观方面的强大能力。通过分析文本中的价值倾向,AI系统可以更好地在多种社会情境下进行自动化的道德判断和行为预测。
目前,现有技术仍然存在一些明显的不足和挑战:
1、数据稀缺与昂贵的数据标注成本:在涉及人类价值观的任务中,现有模型的表现高度依赖于高质量、标注完善的数据集。尽管有一些专用数据集(如ValueEval和ValueNet),但标注这些数据的成本极为高昂,尤其是在跨文化、多语种的情境下,数据标注的复杂性和多样性增加了获取高质量训练数据的难度。手动标注数据不仅费时费力,还容易引入人为偏见。
2、数据的多样性和覆盖不足:当前的许多数据增强方法(如同义词替换、随机插入、删除和反向翻译)尽管可以在一定程度上增加数据量,但往往无法保持文本的语义完整性。这些传统方法在生成多样化数据时难以处理复杂的社会情境和多层次的人类价值观。
3、模型的社会和伦理偏差:大语言模型在处理与人类价值相关的任务时容易受到训练数据中固有的社会偏差的影响,导致其生成的内容偏向特定文化或价值体系。例如,研究表明,GPT模型在处理涉及伦理道德的内容时,存在对特定社会群体的偏见。这种偏见影响了模型在多文化、多语境下的普适性,使其难以真正实现“价值中立”或“跨文化适应性”。
4、模型的泛化能力不足:尽管预训练语言模型在特定领域的表现优异,但其在开放领域的泛化能力仍存在明显不足。在不同领域间,尤其是跨文化、跨领域的数据集上,现有的模型往往难以充分适应。
实现思路