本技术方案涉及一种文本分类识别技术,该技术包括以下步骤:收集来自N个不同文本领域的文本样本,形成包含目标样本的第一样本集,其中目标样本已标注实际的文本类别;基于这些目标样本进行分类识别,以确定其类别。
背景技术
随着互联网技术的发展,大量用户通过互联网进行学习、工作、社交。在使用互联网的过程中,用户会收发、查看大量的文本内容,这些文本内容所包含的信息良莠不齐,加之互联网的传播速度快,如果不对有问题的文本内容进行识别、管控,将会对互联网造成不利影响。
如何精准的识别文本类别是维护互联网安全的重要手段之一。然而,文本内容有着不同的来源,例如用户搜索时输入的关键词,网页中的文章、公众号文章等,目前的相关技术主要采用通用的分类模型来对所有来源的文本进行类别识别。
由于不同来源的文本间存在很大的领域差异,通用分类模型难以注意到这些差异,导致针对不同来源的文本分类识别效果差异很大。
实现思路