本申请实施例公开一种数据处理方法以及设备,其中方法包括如下步骤:获取目标音频文件;对所述目标音频文件进行音频分割,生成至少一个音频片段;使用预设的特征提取网络模型对所述音频片段的特征进行嵌入学习,以得到所述音频片段的嵌入式特征向量;通过音频检索库对所述至少一个音频片段的嵌入式特征向量进行检索,生成所述目标音频文件的检索结果;根据所述检索结果对所述目标音频文件的原创性进行分析。采用本申请,可以提高对音频文件原创性识别的效率和准确率。
背景技术
在原创音频保护上,目前主要是通过人工检测以及利用音频的相似性进行判别,但在现有技术中,基于人工审核识别的方法,在互联网产品海量的音视频环境下,需要花费大量的人工成本和时间成本,效率低下。同时,现有的基于音频聚类的音频相似性判断方法,主要是通过pitch特征、梅尔频率倒谱系数特征(MFCC)、能量、幅度或包络等特征作为音频指纹,音频识别的准确率受音频特征提取和聚类的影响,在聚类过程中,有些音频本身很相似,无法实现很好的聚类,会导致对音频文件的原创性进行错误地判断。
实现思路