本技术提供了一种图数据预处理方法、系统、设备及介质,属于图数据处理技术领域,其方法包括如下步骤:去除待处理图数据的多个扰动边,得到粗略图;从多个扰动边中随机选取一些边添加到粗略图中生成待预测图;使用深度图互信息模型DGI学习粗略图和粗略图空间表示之间的互信息,以及待预测图和待预测图空间表示之间的互信息;判断两个互信息的差值是否小于阈值,若否,从剩余的扰动边中选择多个边添加到待预测图中生成新的待预测图,并再次判断新的待预测图及其空间表示的互信息与粗略图和粗略图空间表示之间的互信息的差值是否小于设定阈值,若是,则得到干净图。本发明能够去除图数据中的微小扰动结构,得到干净图数据。
背景技术
图数据是一种普遍存在的数据结构形式,能够表示各种实体及其复杂的相互连接关系。图数据可以反映各种现实世界的网络,包括蛋白质网络、交通网络、社交网络等。目前,图神经网络(GNNs)由于在节点分类、链接预测和图分类等任务中的显著表现,已成为一种有效分析图的强大工具。尤其是在图神经网络中引入无监督学习之后,在几乎不改变GNNs的表示学习质量的同时,可以不依靠标签进行学习。
然而,许多研究表示,当图神经网络遭到恶意对抗攻击时,图神经网络表现出显著的脆弱性,换句话说,当输入图神经网络中的图数据的结构中具有微小扰动(污染的图数据)时,就有可能导致图神经网络产生错误的预测结果。因此,有必要对输入图神经网络中的图数据(被攻击图)进行预处理,识别受污染的图数据中的被扰动的结构,移除扰动结构,以提高模型性能。
目前,一些研究采用了基于相似性的检测方法来确定某个结构是否被扰动,即删除节点表示相似性非常低的节点之间的边缘。然而,这些方法在防御对抗攻击方面表现不佳,这是由于对抗攻击更有可能连接通常彼此距离较远的节点,扰动边缘可能会导致模型对原本不相邻的节点学习出相似的表示,从而无法有效识别微小的扰动结构,导致污染的图数据预处理效果不佳,影响图神经网络的对抗攻击训练效果。
实现思路