本技术公开了一种基于快速BTM的舆情主题处理方法及装置,舆情主题处理方法包括:步骤S1:在海量文本库中筛选符合条件的分析文本;步骤S2:对分析文本进行预处理后,进行BTM主题推断获得多个主题的关键词及概率;步骤S3:根据多个主题的关键词及概率进行主题划分后再进行主题合并;步骤S4:根据合并后的主题获得主题下文本和关键词之间的文本相似度,选取相似度最高的分析文本作为该主题的典型文本。
背景技术
随着互联网技术的发展,网络上产生了大量的文本内容,且目前大量的网络自发舆情集中于社交媒体当中,如何快速掌握大量社交媒体文本中的主题内容,将相似话题的文本进行聚类,并正确理解不同话题谈论的主要内容,成为构建当前大数据舆情分析能力的重要一环。但是现有的舆情分析存在以下缺点:
1)现有技术的计算速度慢;
2)现有技术没有对相似的主题进行合并;
3)现有技术没有对主题进行自动总结。
因此亟需开发一种克服上述缺陷的舆情主题处理方法和装置。
实现思路