本创新技术涉及主动学习样本筛选方法,涵盖使用预训练模型对数据进行特征嵌入,并借助微型神经网络迭代选择样本数据;基于迭代过程优化样本选择。
背景技术
在实现大规模数据分析服务过程中需要具备高效的定期模型更新条件,以适应可能变化的数据分布。对于相应的大规模样本,通过人工标注所有可用于任务模型更新的样本工作量过于庞大,导致其无法实现。为解决这一问题,现有技术中提出了采用主动学习技术来迭代选择信息丰富程度高的样本子集进行标注的方式实现对学习样本的标示。然而,通过在实际视频分析系统中应用相应的主动学习的经验过程中,发现了一个之前被忽视的时间成本瓶颈问题,即数据选择的时间成本过高问题。
也就是说,现有的主动学习方法通过估计每次迭代中所有未标注样本的信息丰富程度(例如,其输出置信度等)来选择数据。在相应的分析系统中,这个数据选择过程可能占到整个模型更新的大量的时间成本,实验发现相应的时间成本占到整个模型更新的42.8%的时间成本,相应的整个模型更新的总计时间成本包括数据选择、标注和模型更新的时间。
因此,现有的主动学习的数据选择方法存在着占用时间成本过高的问题,进而导致相应的整个模型更新的效率无法得到保证。
实现思路