本技术涉及人工智能技术领域,公开了一种数据标注技术,包括方法、装置、设备及存储介质。该技术通过整合待标注文件的操作、视觉和语音数据,实现向量化处理,以优化人工智能训练数据的质量和效率。
背景技术
数据标注是有监督学习的前提,高质量的标注是有监督模型效果的保障,目前使用的标注系统和任务强绑定的,这使得大量的标注在具体任务上可以达到一定的效果,而更换新的任务时,原标注的数据则会出现大量偏差。在智能医疗领域,数据需要通过医师进行标注,从而完成特定的标注系统设计,如现有技术医学中的命名实体识别(MER),通过让医师标注者过度重视数据标注,忽略了医师在临床判断中具体所关注的数据,从而导致数据标注的结果和诊断思路具有差异,造成模型所学习到的诊断思路的分类判断准确度较低,进而导致所标注数据,在下游任务中的准确率较低。
实现思路