本申请涉及数据质量管控的技术领域,尤其涉及一种数据质量管控方法、系统、设备及存储介质。本申请首先采集电商平台的订单数据和用户数据,并根据预设规则将其划分为多个数据分区;然后对每个数据分区进行质量评估,确定存在质量问题的分区;针对问题分区中的问题数据,进行标注并识别其质量问题类型,然后构建质量管控知识图谱,通过实体节点和关系链接可视化展示订单数据、用户数据以及质量问题类型对应的实体,并展现它们之间的关联关系;不仅可视化展示数据实体及其关联关系,而且能够形成可积累的质量管控知识,为数据质量管控提供了知识支持和决策引导,能够更好地认知和管理复杂的数据质量问题,从而提高了数据质量管控的智能化水平。
背景技术
随着电子商务的快速发展,电商平台积累了大量的订单数据和用户数据。这些数据不仅是电商业务运营的重要支撑,也是挖掘用户需求、优化商品营销策略的宝贵资源。然而,由于数据来源多样、格式复杂,容易出现各种质量问题,如数据不一致、不完整等,影响数据的可用性和准确性。因此,有效的数据质量管控对于提高电商平台的数据质量、保障业务决策的科学性至关重要。
现有技术通常采用规则引擎或基于机器学习的自动化方法对数据进行质量检测和评估。一些技术利用元数据对数据质量进行管理,建立数据质量维度模型;另一些技术基于大数据平台,通过分布式计算实现大规模数据质量分析。这些方法能够自动化识别数据质量问题,但缺乏对质量问题的系统管理,对此情况有待进一步改善。
实现思路