本技术涉及数据可视化领域,具体涉及一种面向散点图可视化任务的数据采样质量评价方法及系统。所述方法包括如下步骤:给定高维数据集,利用数据采样方法,生成高维数据子集;根据所述高维数据子集,获得低维数据子集;随机提取所述高维数据集的聚类,获得高维空间子聚类;根据所述高维空间子聚类,获得低维空间子聚类;衡量所述高维空间子聚类和所述低维空间子聚类的差异,获得不同维度空间子聚类对的差异;根据所述不同维度空间子聚类对的差异,获得全局误差;通过所述全局误差,实现对高维数据采样质量的评价。本发明通过比较不同维度空间子聚类差异,衡量不同采样方法对数据投影后的保留情况,实现了对投影散点图中高维数据真实性的有效评估。
背景技术
在高维数据可视化分析中,投影技术与散点图采样技术的选择对于理解高维数据至关重要。不同的投影技术搭配不同的高维数据采样方法,会使得散点图产生各异的可视化效果。
现有技术中,通常采用基于投影空间的采样方法和基于高维空间的采样方法,进行高维数据的可视化分析。基于投影空间的采样方法只考虑了投影空间的数据分布特征,没有考虑到原始高维数据的分布特征,导致存在采样点的选择偏差问题;而基于高维空间的采样方法虽然解决了投影空间采样点的选择偏差问题,但是难以呈现出较好的可视化效果;针对不同的投影技术,虽然采用不同的高维数据采样方法会带来不同的效果,但是如何选择与投影技术匹配的高维数据采样方法,使得散点图呈现最佳的可视化效果,是急需解决的问题。
目前,针对高维数据采样质量评价的研究工作并不多,尚无具体的一种面向散点图可视化任务的高维数据采样质量评价方法。
实现思路