本技术涉及人工智能领域,提供模型评估技术、系统、设备及存储介质,适用于多种场景如语言处理、图像处理和情感分类。该技术通过获取训练数据和测试数据,实现对人工智能模型的性能评估。
背景技术
随着人工智能技术的发展,越来越多的产品中融入了智能算法,而一个算法质量的优劣将影响到算法乃至程序的执行效率,因此在产品中融入合适的算法非常重要,否则可能由于算法的融入而影响了产品原本的性能。对此,需要针对算法质量进行评测。
现有技术中,针对算法评测的问题,提供了一种语言可解释性工具(LanguageInterpretability Tool,LIT),该工具可以用于评测自然语言处理(Natural LanguageProcessing,NLP)算法模型。
然而,LIT工具仅仅是针对自然语言处理领域的算法模型和各项自然语言处理任务,其无法适应于其他领域更广泛的算法模型中,导致适应性较差;另外,LIT工具中进行白盒评测时,一般是针对模型内部的特征层进行,缺乏了对数据样本等层面的评估分析,其分析结果较为单一,无法从多个层面了解算法模型的质量问题。
实现思路