本申请涉及文本标签处理技术领域,特别是涉及一种目标文本标签确定方法,所述方法包括以下步骤:首先获取每一初始文本的文本优先级和获取每一关键文本标签对应的若干个初始文本,然后获取每一关键文本标签对应的第二文本标签得分,将不小于目标标签得分的第二文本标签得分确定为目标文本标签;可知,本技术将文本的重要程度以及标签的使用率结合后筛选出文本标签,能够反映出文本标签的重要性和有效性,进而筛选出更有价值的文本标签。
背景技术
为了便于文本分析和处理,不同的文本存储平台的标签体系通常具有各自的设定标准,而高等级服务平台通常具有统一分类标准,若干个低等级服务平台会按照统一分类标准构建标签体系并根据业务需求或地区差异添加有自定义的分散标签,在这些分散标签中存在使用价值高低不同的情况,因此,如何从若干个分散标签中筛选出高价值标签来实现对统一的标签体系进行优化是很有意义的。
目前,在筛选高价值标签时,通常是通过文本数据库对已有的标签体系中的标签进行筛选,根据标签的使用情况判定标签的重要性,而未考虑到文本的实际情况,筛选标签的可靠性不高,如申请号为“2022110849118”,名称为“一种地产行业标签体系优化方法、系统、设备及存储介质”的专利文献中提出了一种地产行业标签体系优化方法,根据标签优化参数和设定的标签优化阈值实现标签的筛选,而在确定标签优化参数时,仅根据叶节点对于文本的命中次数进行延申,筛选方向较为单一,高价值标签筛选的可靠性还有待提升。
实现思路