本技术公开了一种电信运营商用户表单数据空值、异常值处理方法,属于数据挖掘技术领域,包括:S1:筛选出原始数据中无缺失值、无异常值的高质量数据作为初始数据集1(假设初始数据特证数为n)。本发明通过一系列步骤,显著提升了数据质量,并可以充分利用数据资源,从而确保了数据分析的准确性,它通过筛选高质量数据、剔除无效样本、精确预测空值、采用综合填充策略、有效识别和处理异常值、优化模型性能、保持灵活性和可扩展性、逐步完善数据集、调整超参数以及利用专业知识,实现了数据集的全面优化,这种方法不仅提高了数据集的整体可用性和可靠性,而且还通过结合机器学习算法和人员经验,为数据分析和业务决策提供了强有力的支持。
背景技术
在电信运营商进行用户数据挖掘分析时,从数据库中获取的数据资源,普遍出现了缺失值和异常值较多的情况。当前,电信运营商在数据预处理的过程中,基本都是采用均值、中位数、众数等数值直接填充,或采取回归算法进行数据预测,从表单数据的角度来看,借助均值、中位数等特定数值填充,只考虑了单个特征的特性,而采取回归算法则仅借助单个样本中不同特征进行预测,未充分发挥表单中全部有效数据的作用。
同时,当前,国内外学者提出了很多缺失值填充和异常值识别的方法,这些方法在不同的领域都发挥了巨大的作用,但是对于表单数据的空值和异常值处理,基本都是借助特定值填充和回归算法预测实现,在原始数据预处理的方法上和电信运营商数据处理方法类似。
本发明实施例提供了一种数据处理方法,主要聚焦空值和异常值处理,以解决现有技术中空值和异常值处理过程中,尤其是回归算法,原始数据资源利用不足的问题。
实现思路