本技术方案介绍了一种跨特征联邦学习环境下的数据处理技术,包括相应的装置和系统。该技术专门针对联邦学习领域,优化了在不同参与方拥有不同字段数据时的处理流程。
背景技术
联邦学习是指一种机器学习框架,能有效帮助多个参与方(可以代表个人或机构)在满足数据隐私保护的要求下,联合训练模型。
通常情况下,各参与方会基于服务器反馈的全局参数对联邦模型进行参数更新,但是,该过程一般指的是模型训练阶段。在进入模型训练阶段之前,各参与方往往需要对各自的本地数据进行处理,以使得本地数据达到预设的标准,进而使其可以直接应用于模型训练。
但是,在跨特征联邦学习场景下,各参与方的样本字段不一致,基于不一致的样本字段无法实现多参与方之间的联邦学习。因此,需要在模型训练之前进行数据预处理。如何实现跨特征联邦学习场景下的数据预处理以便多参与方之间进行联邦学习成为了当前亟需解决的问题。
实现思路