本技术公开了一种基于人工智能的信息采集方法,涉及信息检索技术领域。该方法包括:将用于信息采集的检索式拆分成多个原子检索式;基于各原子检索式之间的关联关系,将多个原子检索式中的各原子检索式添加到内置搜索队列和/或通用搜索队列;基于最新的内置搜索队列和最新的通用搜索队列进行信息采集,得到多个初始文档信息;将多个初始文档信息中各初始文档信息划分为多个句子序列;计算多个初始文档信息中各初始文档信息所对应的所有句子序列与多个原子检索式的关联度,并基于关联度对多个初始文档信息进行过滤,得到至少一个目标文档信息。本发明公开的基于人工智能的信息采集方法可提高信息的采集速率和准确率。
背景技术
随着互联网技术的发展,各类搜索引擎被广泛应用于信息的搜索采集,例如谷歌、百度等搜索引擎。
目前,对于信息的采集,大多采用基于规则的主题表示方法,基于规则的主题表示方法使用若干关键词及关键词之间的“与”、“或”关系构成检索式进行信息采集,随着互联网信息的爆炸性增长,现有的信息采集方式由于信息的爆炸性增长导致信息采集的速率较低,越来越难以满足实际应用的需求,同时采集的信息中还包含大量与用户所采集信息无关的内容,导致用户的使用体验较差。
因此,如何提供一种有效的方案以提高信息采集效率和准确率,已成为现有技术中一亟待解决的难题。
实现思路