本技术属于大模型保护数据的技术领域,更具体地,涉及基于马尔可夫决策过程的大语言模型多阶段隐私保护方法。所述方法包括系统建模,设计基于MDP的动态隐私保护模型MDP‑PPFC。所述模型包括系统状态和状态转换,在系统中引入纳什均衡的功能来分析模型中的收益函数,用户和系统可以找到保护隐私问题的权衡来最大化准确结果;系统分析,获取MoD数据效用测量和分析隐私损失;最优防御策略中的强化学习,修改SARSA强化学习算法以在提出的模型中获得零和多阶段博弈的独占纳什结果。本发明解决了各种局限性导致先前的研究无法全面揭示隐私保护过程中所面临的风险的问题。
背景技术
随着大语言模型的快速发展,其在自然语言处理、文本生成、对话系统等领域展现出巨大的潜力。然而,这些模型在训练和应用过程中会接触到大量敏感信息,引发隐私泄露的担忧。特别是当用户输入包含个人隐私的文本时,如何保护用户的隐私安全成为亟待解决的问题。大语言模型中的隐私保护是确保用户数据安全和避免信息泄露的关键领域。为了保护隐私,这些模型通常采用加强数据脱敏、加密存储和处理等措施,研究人员还会使用如差分隐私和安全多方计算等技术来在数据训练过程中防止个体信息被识别。除了作为隐私保护之外,数据效用也同样重要,因为它代表了整个系统的可用性,构建一个安全、可靠的大模型隐私保护体系,为我国人工智能产业的健康发展提供有力保障。
中国发明专利CN116595575A公开一种面向边缘智能控制器的依赖任务卸载和隐私保护方法,针对边缘智能控制器的隐私保护卸载所面临的挑战,本发明的内容在于提出了基于Seq2Seq的深度强化学习依赖任务卸载算法,在考虑边缘智能控制器的应用任务之间的依赖关系和网络动态变化等因素,实现依赖任务实时高效卸载调度同时保护边缘控制器的隐私数据,减少任务处理总的时延和能耗,最大化用户服务质量。
虽然现有的一些隐私保护方法已经扩展到该领域,比如常用解决隐私问题的方法,k-匿名、安全多方计算、差分隐私、同态加密等技术。Lingjuan Lyu等人描述的PPFA模型讨论了使用差分隐私进行同态加密创新,以保护多个智能电表与用户之间通信过程中的敏感内容,确保聚合器无法识别并提高系统的鲁棒性。Alsheikh对马尔可夫决策过程(MDP)
进行了深入的研究,揭示了其在解决动态决策问题中的强大能力。而 Qu和Wei则将 MDP应用于隐私保护领域,并在手机社交网络和上下文感知应用中取得了显著成果,证明了其有效性。此外,SARSA强化算法是强化学习领域中学习MDP策略的一种算法,Ying等人探讨了在基于信任的社交网络中应用强化学习方法。但是尽管这些技术提供了良好的性能结果,可结果更侧重于稳定的网络,而不是长期动态或可定制的网络约束,而且对数据在多个边缘节点和用户之间传播的隐私问题研究甚少。比如,服务提供商通常无法提供长期的多级隐私保护,而多级边缘节点结构使得数据在传输过程中更容易被恶意节点截获或泄露。因此,用户可能会匿名发布数据或提供虚假信息以避免隐私泄露,从而导致数据利用率低,从而降低系统的服务质量。此外,当包含上下文信息时,可定制的隐私保护特别困难。随着数据的不断增长,用户不断将新生成的数据上传到连接的边缘节点。在这种情况下,上层边缘节点会不断收集数据,然后利用数据挖掘等各种大数据技术对数据进行分析。各种局限性导致先前的研究无法全面揭示隐私保护过程中所面临的风险。
实现思路