本技术涉及一种信息去重技术,包括方法、设备和存储介质。该技术在接收到新上传的文件后,通过构建多维度特征向量对文件进行分析,实现与样本文件在各个维度上的比较,以达到信息去重的目的。
背景技术
在互联网快速发展的时代,随着内容生产的门槛降低,视频、图片、文本等信息的上传量发布量以指数级的速度增长。以短视频内容为例,由于其具有生产流程简单、制作门槛低、参与性强等特点,可以来源于PGC(Professionally-generated Content,专业生产内容)、UGC(User-generated Content,用户生产内容)、用户上传、各种专门制作短视频的机构或应用程序、MCN(Multi-Channel Network)等等,使得短视频已经成为内容创业和社交媒体平台的重要传播方式之一。
然而,在实际应用中,由于各个短视频平台为了鼓励创作内容,对内容都有相关的补贴和激励机制,使得内容创作者为了提升自己的收益,会上传大量类似或者直接拷贝抄袭其他号主的重复内容,甚至会为了增加吸引力,上传一些如涉及血腥暴力、危害安全的高危内容及其变种,不利于整个内容生态的健康发展。
所以,为了保证分发内容的安全性、时效性和内容本身版权来源方的利益,通常需要对上传内容进行审核,剔除不利于整个内容生态的健康发展的内容,若直接对上传的内容进行审核,往往会因审核内容过于庞大而导致审核耗时非常长,增加审核成本降低审核准确率。对此,现有技术通常是先利用相似检测算法消除重复内容,再进行其他内容的审核,但在消重处理过程中,目前是依据标题或图片相似度计算结果,对大量文件进行依次消重处理,消重效率和准确率都较低,往往会因过度消重,导致无法满足业务需求。
实现思路