本技术提出了一种基于大语言模型的数据集关键词生成及筛选方法,属于自然语言处理和人工智能领域。所述方法包括:收集评论文本数据及其已知关键词;文本数据分块;大语言模型生成初步关键词;结合TF‑IDF算法和TextRank算法对初步关键词列表中的初步关键词进行初步筛选;通过大语言模型对初步筛选后的关键词进行语义与情感相关性筛选,得到最终关键词。本发明在关键词生成与筛选技术上取得了显著进步,特别适用于需要高精度、高效率的大规模文本分析任务。
背景技术
互联网平台中,如知乎、微博、抖音等网络媒体平台每天产生数以亿计的用户评论,对于这些大规模的评论文本数据,如何有效地生成和扩展关键词是一个至关重要的问题。比如在立法意见反馈的分析过程中,从海量的语料库中准确提取与立法意见相关的关键词,对于提高信息处理的效率和决策的准确性具有重要意义。关键词的生成和扩展是文本分析的关键步骤之一,通过高准确率的关键词提取,可以有效提升从大规模语料库中获取重要信息的能力。
在现有技术中存在一些基于大规模预训练语言模型的关键词生成方案。通过在广泛的文本数据上进行预训练,这些模型能够理解复杂的语言模式,并生成与输入文本相关的关键词。然而,现有方案通常依赖一次性生成,缺乏后续的关键词筛选步骤,导致生成的关键词集可能包含不相关或冗余的词汇,影响实际应用效果。
传统方法如TF-IDF和词向量模型(如Word2Vec)在处理复杂文本中的语义模糊和多义性问题时表现不佳。特别是在评论文本中,评论文本大多为短文本,这些方法无法有效捕捉深层次的语义关系,生成的关键词集合往往缺乏高度语义相关性和实际应用价值,难以反映文本的核心内容。
对于领域特定的术语(如法律术语),现有的大语言模型生成的关键词可能偏离实际需求,包含一些不相关的词语。在立法领域中,关键词生成的质量要求更高,必须具有高准确性和法律相关性,以支持法律分析和决策,但现有模型往往难以满足这些要求。
关键词的有效性依赖于其能否准确反映文本的主题和情感倾向。现有的大语言模型在生成关键词时,通常难以处理多层次文本环境中的上下文信息,这可能导致生成的关键词无法准确地反映文本的真实含义。
在处理大规模的评论文本数据时,现有技术(如LDA模型和深度学习模型)由于模型复杂度高和计算资源要求高,难以满足快速响应的需求。这些技术在处理大规模文本数据时往往需要耗费大量的计算资源和时间,难以实现实时处理,限制了其在实际应用中的效率和可行性。
实现思路