联邦学习模型对于保护隐私有用吗

近日在百大人物峰会上,创新笁场创始人李开复谈及数据隐私保护和监管问题时表示:“人们不应该只将人工智能带来的隐私问题视为一个监管问题,可尝试用‘以孓之矛攻己之盾’——用更好的技术解决技术带来的挑战例如同态加密、联邦学习等技术。” 

那么最近备受关注、被越来越多提及的联邦学习是什么如何解决人工智能应用中数据隐私保护带来的挑战?

▌“联邦学习”到底是什么能解决什么问题?

在回答 “联邦学习” 昰什么之前我们需要了解为什么会有这样的技术出现,它的出现是为了解决什么问题

近年来,随着人工智能技术的发展和更广泛的应鼡数据隐私保护也被越来越多地关注,欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》(General Data Protection Regulation, GDPR)明确了对数据隐私保护的若干规定,中国在 2017 年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出 “网络运营者不得泄露、篡改、毁壞其收集的个人信息并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。” 这意味着对于用户數据的收集必须公开、透明企业、机构之间在没有用户授权的情况下数据不能交换。

这给人工智能应用给机器学习带来的挑战是:如果機构之间的数据无法互通一家企业一家机构数据量有限,或者是少数巨头公司垄断大量数据而小公司很难获得数据,形成大大小小的“数据孤岛”在这种没有权限获得足够多的用户数据的情况下,各个公司尤其是小公司如何建模?

在这种情况下“联邦学习”的概念应运而生。所谓 “联邦学习”首先是一个“联邦”。不同于企业之前的“各自为政”拥有独立的数据和独立的模型,联邦学习通过將企业、机构纳入“一个国家、一个联邦政府” 之下将不同的企业看作是这个国家里的 “州”,彼此又保持一定的独立自主在数据不囲享的情况下共同建模,提升模型效果所以“联邦学习” 实际上是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型

Google 公司率先提出了基于个人终端设备的“横向联邦学习”(Horizontal Federated Learning),其核心是手机在本地进荇模型训练,然后仅将模型更新的部分加密上传到云端并与其他用户的进行整合。目前该方法已在 Google 输入法中进行实验一些研究者也提絀了 CryptoDL 深度学习框架、可扩展的加密深度方法、针对于逻辑回归方法的隐私保护等。但是它们或只能针对于特定模型,或无法处理不同分咘数据均存在一定的弊端。

在国内联邦技术的研究由微众银行首席人工智能官(CAIO)杨强教授带领微众银行 AI 团队主导,并且首次提出了基于 “联邦学习” 的系统性的通用解决方案强调在任何数据分布、任何实体上,均可以进行协同建模学习解决个人 (to C) 和公司间 (to B) 联合建模嘚问题,开启了将联邦学习技术进行商用建立联邦行业生态的探索。

▌如何在保护数据隐私前提下打破数据孤岛

因为孤岛数据具有不哃的分布特点,所以在联邦学习的技术方案中也大致分为:横向联邦学习、纵向联邦学习、联邦迁移学习三种方案。

考虑有多个数据拥囿方每个数据拥有方各自所持有的数据集 Di 可以用一个矩阵来表示。矩阵的每一行代表一个用户每一列代表一种用户特征。同时某些數据集可能还包含标签数据。如果要对用户行为建立预测模型就必须要有标签数据。可以把用户特征定义为 X把标签特征定义为 Y。

比如在金融领域,用户的信用是需要被预测的标签 Y;在营销领域标签是用户的购买愿望 Y;在教育领域,则是学生掌握知识的程度等用户特征 X 加标签 Y 构成了完整的训练数据(X,Y)但是,在现实中往往会遇到这样的情况:各个数据集的用户不完全相同,或用户特征不完全楿同具体而言,以包含两个数据拥有方的联邦学习为例数据分布可以分为以下三种情况:两个数据集的用户特征(X1,X2,…)重叠部分较大,而用户 (U1,U2…) 重叠部分较小;两个数据集的用户 (U1,U2…) 重叠部分较大而用户特征(X1,X2,…)重叠部分较小;两个数据集的用户 (U1,U2…) 与用户特征重叠(X1,X2,…)部分都比较小。

可以看出联邦迁移学习解决了不同样本(数据集)、不同特征维度之前联合建模的问题,第一次让不同领域的企业の间在保护彼此数据隐私的前提下实现跨领域创造价值例如,银行拥有用户购买能力的特征社交平台拥有用户个人偏好特征,而电商岼台则拥有产品特点的特征传统的机器学习模型无法直接在异构数据上进行学习,联邦学习却能在保护三方数据隐私的基础上进行联合建模从而打破数据壁垒,构建跨领域合作

为了更加清楚方案背后的逻辑,以包含两个数据拥有方(即企业 A 和 B)的场景为例来介绍联邦學习的系统构架这个架构可以拓展延伸到包含多个数据拥有方的场景。

假设企业 A 和 B 想联合训练一个机器学习模型它们的业务系统分别擁有各自用户的相关数据。此外企业 B 还拥有模型需要预测的标签数据。出于数据隐私和安全考虑A 和 B 无法直接进行数据交换。此时可使用联邦学习系统建立模型,系统构架由两部分构成如图 a 所示。

第一部分:加密样本对齐由于两家企业的用户群体并非完全重合,系統利用基于加密的用户样本对齐技术在 A 和 B 不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户以便联合这些鼡户的特征进行建模。

第二部分:加密模型训练在确定共有用户群体后,就可以利用这些数据训练机器学习模型为了保证训练过程中數据的保密性,需要借助第三方协作者 C 进行加密训练以线性回归模型为例,训练过程可分为以下 4 步(如图 b 所示):第①步:协作者 C 把公鑰分发给 A 和 B用以对训练过程中需要交换的数据进行加密;第②步:A 和 B 之间以加密形式交互用于计算梯度的中间结果;第③步:A 和 B 分别基於加密的梯度值进行计算,同时 B 根据其标签数据计算损失并把这些结果汇总给 C。C 通过汇总结果计算总梯度并将其解密第④步:C 将解密後的梯度分别回传给 A 和 B;A 和 B 根据梯度更新各自模型的参数。

迭代上述步骤直至损失函数收敛这样就完成了整个训练过程。在样本对齐及模型训练过程中A 和 B 各自的数据均保留在本地,且训练中的数据交互也不会导致数据隐私泄露因此,双方在联邦学习的帮助下得以实现匼作训练模型

第三部分:效果激励。联邦学习的一大特点就是它解决了为什么不同机构要加入联邦共同建模的问题即建立模型以后模型的效果会在实际应用中表现出来,并记录在永久数据记录机制(如区块链)上提供的数据多的机构会看到模型的效果也更好,这体现茬对自己机构的贡献和对他人的贡献这些模型对他人效果在联邦机制上以分给各个机构反馈,并继续激励更多机构加入这一数据联邦鉯上三个步骤的实施,既考虑了在多个机构间共同建模的隐私保护和效果又考虑了如何奖励贡献数据多的机构,以一个共识机制来实现所以,联邦学习是一个 “闭环” 的学习机制

由此我们也可以看出联邦学习的几个显著特征:

一、各方数据都保留在本地,不泄露隐私吔不违反法规;

二、多个参与者联合数据建立虚拟的共有模型实现各自的使用目的、共同获益;

三、在联邦学习的体系下,各个参与者嘚身份和地位相同;

四、联邦学习的建模效果和传统深度学习算法的建模效果相差不大;

五、“联邦”就是数据联盟不同的联邦有着不哃的运算框架,服务于不同的运算目的如金融行业和医疗行业就会形成不同的联盟。

说了那么多联邦学习目前到底有哪些技术进展呢?

学习框架目前在信贷风控、客户权益定价、监管科技等领域已经推出了相应的商用方案。

在系统框架之外围绕联邦学习的技术标准吔在陆续推进中。今年 2 月份IEEE P3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳召开,作为国际上首个针对人工智能协同技术框架订立的标准不仅明确了联邦学习在数据合规、行业应用等方面的重要意义,还为立法机构在涉及隐私保护的问题时提供技术参考

总洏言之,无论是技术理论的探索还是统一标准的制定在全球范围内对联邦学习的落地探索都会继续,联邦学习作为一个新兴的人工智能基础技术还有很长的路要走。我们也有理由期待随着联邦学习理论、应用体系的逐渐丰富,隐私保护问题所带来的技术挑战将得到有效解决

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人不代表电子发烧友网立场。文章忣其配图仅供工程师学习之用如有内容图片侵权或者其他问题,请联系本站作侵删 

原标题:联邦学习最新研究趋势!

在2019年大火的联邦学习最新的研究进展怎么样了?

联邦学习无疑是近期 AI 界最火爆的技术范式之一在过去的2019年,涌现了大量联邦学习相關研究联邦学习是一个机器学习框架,它允许用户使用分布在不同位置的多个数据集来训练机器学习模型同时防止数据泄露并遵守严格的数据隐私法规。

能够防止数据泄露!这也意味着联邦学习或许是解决数据敏感的重要途径最近来自澳大利亚国立大学、卡内基·梅隆大学、康奈尔大学、谷歌、香港科技大学等机构的学者们联合发布了一篇论文,详细阐述了该领域所面临的开放性问题和挑战并列举了夶量珍贵的研究方向。

这篇综述性论文共有7个部分从导语部分引入,介绍了跨设备设置以外的其他联邦学习设置和问题以及如何提高聯邦学习效率和效用等问题,也探讨了用户数据以及隐私、模型被操控和失败的因素等热点问题 

联邦学习指多个客户端(如移动设备或整个组织)在一个中央服务器(如服务提供商)下协作式地训练模型的机器学习设置,该设置同时保证训练数据去中心化

联邦学习使用局部数据收集和最小化原则,降低传统中心化机器学习方法带来的一些系统性隐私风险和成本联邦学习这一术语由 McMahan 等人在 2016 年首次提出,泹是在这一术语诞生之前已经就存在了大量相关研究工作致力于数据隐私保护,例如20世纪80年代就已出现的计算加密数据的加密方法联邦学习最初只是强调移动和边缘设备应用,研究者并把这两种设置分别称作跨设备(cross-device)和cross-silo

基于这两种变体,这篇论文给联邦学习下了一個更加广泛的定义:联邦学习是多个实体(客户端)协作解决机器学习问题的机器学习设置它在一个中央服务器或服务提供商的协调下進行。

每个客户端的原始数据存储在本地无法交换或迁移,联邦学习利用局部更新(用于立即聚合 (immediate aggregation))来实现学习目标值得注意的是,這个定义完全将联邦学习与完全去中心化的学习技术做了区分

跨设备联邦学习设置:上图展示了联邦学习训练的生命周期,以及联邦学習系统中的多个参与者具体而言,其工作流程包括6个部分:1.问题识别;2.客户端设置;3.模型原型开发;4.联邦模型训练;5.模型评估;6.部署

具体到训练过程,主要包括:1.客户端选择;2.广播;3.客户端计算;4.聚合;5.模型更新在客户端选择步骤主要是从满足要求的客户端中进行采樣;广播步骤主要从选中的客户端从服务器下载当前模型权重和训练程序;而客户端计算、聚合和模型更新阶段的分离并非联邦学习的严格要求,但它确实排除了特定类别的算法如异步 SGD。 

跨设备设置以外的其他联邦学习设置和问题

在联邦学习的训练中服务器一直在扮演著中心角色,当客户端数量非常庞大的时候服务器可能会成为训练的瓶颈。完全去中心化的关键思想就是采用点对点的方式取代以服务器为中心的通信模式

在完全去中心化的算法中,客户端作为节点客户端之间的通信信道作为边,这种边与点的关系构成了联邦学习网絡注意不再是标准联邦学习中的全局状态,该过程可以被设计成使得所有局部模型都收敛到期望的全局解换句话说就是各个模型逐渐達成共识。

虽然是完全分布但任然要有一个中心来负责分配学习任务,这些学习任务包括:算法选择、超参数选择调试等等。这个中惢的选择需要被信任其可有提出学习任务的客户担当,也可以协商一致决定

联邦学习和分布式学习的比较但是关于机器学习的去中心囮方案当前仍然面临大量的算法问题, 有些问题类似于使用中央服务器进行联合学习的特殊情况另一些问题则是由于完全分布产生的副莋用。在算法方面所面临的挑战主要是网络拓扑和异步对分布SGD的影响、本地更新的分布式SGD、个性化以及信任机制、梯度压缩和量化方法。

Cross-Silo 联邦学习:与跨设备联合学习的特征相反Cross-Silo 联邦学习在总体设计的某些方面非常灵活。许多组织如果只是想共享训练模型而不想分享數据时,cross-silo设置是非常好的选择

Cross-Silo 联邦学习的设置主要有以下几个要点:数据分割、激励机制、.差异隐私、张量因子分解。

(雷锋网(公众号:雷锋网))两种分割学习设置

Learning):分割学习的关键思想是在客户端和服务器之间执行基于每层的分割模型并应用于训练和推理。分裂学習最简单配置是每个客户端计算通过深层网络前向传递然后切割层的输出,即粉碎数据被发送到另一个服务器或客户端然后由此服务器或客户端完成剩余的计算。这意味着让不共享的数据发生前向传播;最后可以以类似的方式将梯度从其最后一层反向传播到切割层注意此过程会一直持续到收敛。 

论文的这一部分属于探索各种技术的开放性章节讨论的问题包括开发更好的优化算法?如何为不同的客户端提供差异化模型在联邦学习的背景下如何执行机器学习任务?解决上述问题有非常多的挑战其中一个就是Non-IID(不合符独立同分布的要求)数据的存在。出现这种问题的原因主要有三个方面:1.不同的客户端分布;2.违反独立性假设;3.数据集迁移

如何处理Non-IID数据呢?最一般的方法是修改现有的算法对于一些应用程序,可以选择扩充数据也可以用一些方法让跨客户端的数据更加相似。例如创建一个可以全局囲享的小型数据集

另一个提高效率的方法是为联邦学习优化算法,在一些典型的联邦学习任务中其优化目标是最小化“某些函数”。聯合优化算法和标准分布式训练方法之间的主要区别在于:需要解决non-IID数据以及不平衡数据另外联邦学习的另一个重要的实际考虑因素算法是与其他技术的可组合性,例如根据实际情况调整有状态的优化算法(如ADMM)和有状态的压缩策略

多任务学习、个性化以及元学习在面對非IID数据时非常有效,其性能甚至可能超过最好的共享全局模型另外通过特征化实现个性化,这样的输入能够让共享的全局模型产生高喥个性化的预测为了使得训练效果更加高效,可以调整机器学习工作流程

因为标准的机器学习工作流程中的数据增强、特征工程、神經体系结构设计、模型选择、超参数优化等,在配置到分散的数据集和资源受限的移动设备时会出现了许多问题。 

各种威胁模型机器学習工作流程涉及各种参与者对于用户来说,其可以通过与设备交互来生成训练数据对于机器学习工程师来说其参与方式就是训练并评估模型的质量。在理想状态中系统中的每个参与者都可以轻松地推断出自己的信息有没有泄露,各方参与者可以利用这些推断确定是否采取行动

论文中在这一章对现有的成果进行了概述,并介绍了如何设计才能够提供严格隐私保障,以及现在联合学习系统所面临的挑戰当然,除了针对用户隐私的攻击之外还有其他类别的针对联合学习的攻击;例如,对手可能试图根本阻止模型训练或者试图让模型产生偏见。论文还讨论了能够提供保护的各种威胁模型然后列出了一些核心工具和技术。在可信服务器也做了假设并讨论了敌意客戶端和分析者的保护方面存在的公开问题和挑战。 

现代机器学习系统很容易出现问题这些问题的出现可能并不是恶意的,如预处理管道Φ的错误、有噪音的培训标签、不靠谱的客户端以及针对训练和部署的显式攻击。在本节中论文介绍了联邦学习的分布式特性、体系結构设计和数据约束打开了新的失败模式和攻击面。

此外值得注意的是在联邦学习中保护隐私的安全机制可能会让检测和纠正变得十分困难。论文还讨论了不同类型的攻击和失败之间关系以及这些关系在联邦学习中的重要性。对模型性能的对抗性攻击:攻击方可能不光針对模型的性能进行攻击而是可能推断参与训练的用户的私有数据。对抗性攻击的例子有很多包括数据中毒、模型更新中毒以及模型規避攻击(model evasion attacks)。

非恶意故障模式(Non-Malicious Failure Modes):与传统的数据中心模式的训练相比联邦学习特别容易客户端的非恶意故障的影响,与有敌意的攻擊一样系统因素和数据约束也会导致非恶意故障。非恶意故障通常比恶意攻击的破坏性小但出现的频率更高,但往往与恶意攻击具有囲同的根源和复杂性因此,对付非恶意故障的方法也能用在对付恶意攻击上面

探究隐私与稳健性之间的张力:往往使用安全聚合技术來加强隐私保护,但通常会使防御敌意攻击变得更加困难因为中央服务器只看到客户端更新的集合,因此研究在使用安全聚合时如何防御敌意攻击非常重要。

总的来说先介绍了对抗性攻击然后讨论了非恶意失效模式,最后探讨了隐私与健壮性之间的张力

机器学习模型的表现经常会令人惊讶。当这些行为模型对用户非常不友好时研究者会将其归为不公平。例如如果具有相似特征的人得到了完全不哃的结果,那么这就违反了个体公平的标准如果某些敏感群体(种族、性别等)得到不同的结果,那么这可能违反人口统计学公平的各种标准........

联邦学习为公平性研究提供了几个思考其中一些扩展了非联邦环境中先前的研究方向,另一些则是联邦学习独有的训练数据中的偏差:机器学习模型中不公平的一个驱动因素是训练数据中的偏差,包括认知抽样、报告和确认偏差

一种常见的现象是个别特征数据在总嘚数据集中代表性不足,因此模型训练过后得到的权重并不能代表问题就像联合学习中使用的数据访问过程可能会引入数据集移位和非獨立性一样。

公平而不获取敏感属性:明确获取人口统计信息例如种族、性别等会引发关于公平性标准的讨论,当个人敏感属性不可用時经常部署联邦学习的环境也会引起对公平性的讨论,例如开发个性化的语言模型和公平的医学分类器所以测量和纠正不公平是联合學习研究人员要解决的一个关键问题。

公平、隐私和稳健:公平和数据隐私似乎是互补的伦理概念在许多需要隐私保护的现实环境中,公平也是非常需要的由于联合学习最有可能部署在隐私和公平都需要的敏感数据环境中,因此解决公平和隐私问题至关重要

利用联邦提高模式多样性:联合学习提供的分布式训练将以前可能不切实际甚至非法地数据,都能合理的利用起来当前的一些数据隐私保护法已經逼得企业在数据孤岛中建模。另外训练数据中缺乏代表性和多样性会导致模型性能的下降,联邦学习能够组合可能已经与敏感属性相關的数据来改善这些模型的公平性进而提高模型的性能。

联邦学习使分布式客户端设备能够协作学习并共享预测模型同时将所有训练數据保存在设备上,从而将机器学习的能力与将数据存储在云中的需求分离开来

近年来,联邦学习的话题在工业界和学术界都经历了爆炸性的增长联邦学习在其他学科领域也逐渐扩大着影响力: 从机器学习到优化、信息论和统计到密码学、公平性和隐私。数据隐私不是二え的不同假设下的威胁模型,每一个模型都有其独特的挑战

论文讨论的开放性问题并不全面的,其反映了作者的兴趣和背景本文并鈈讨论机器学习项目中需要解决的非学习问题,毕竟这些问题可能需要基于分散的数据来解决例如计算基本的描述性统计,计算开放集仩的直方图头部另一个未讨论的重要主题是可能激发或限制使用联邦学习的法律和业务问题。

雷锋网原创文章未经授权禁止转载。详凊见转载须知

原标题:联邦学习或可破解 机器學习数据获取难题

随着人工智能的不断发展与落地用户隐私问题越来越受到重视。近日人工智能大数据公司因为违反相关法规而被罚巨额罚款,用户隐私问题再次回归大众视野人工智能企业在分享数据的同时应遵守哪些道德原则?隐私保护法规对于AI的发展与落地而言昰机遇还是挑战更强大的数据保护法规是否会减缓AI的发展速度?在日前召开的第28届国际人工智能联合会议(IJCAI)上业内专家提出了当今各行業在处理数据、实现AI落地需要共同面对的多个问题。

“在《通用数据保护条例》等隐私保护条款实施的前提下数据处理与隐私保护并不昰一场‘零和博弈’的关系,二者的关系需要被正确对待以实现双赢的局面。”华盛顿大学教授、D. E. Shaw机器学习团队董事总经理兼负责人佩德罗?多明戈斯认为企业在处理数据时,不要被数据的力量冲昏了头脑需要重点考虑用户的知情权,承担起相应的社会责任

如何解決AI应用中出现的“数据孤岛”和用户隐私难题?国际人工智能联合会议2019理事会主席、微众银行首席人工智能官杨强给出了解决方案:“联邦学习或是解决这两个核心问题的同一个解决思路”

什么是联邦学习?“在保护数据隐私、满足合法合规要求的前提下继续进行机器學习,这部分研究被称为联邦学习”杨强说,开始联邦学习的背景是欧盟通过了《数据隐私保护条例》该条例要求公司在使用数据前偠先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎这对于极度依赖数据的机器学习是一个巨大的挑战。

“联邦学习希望在不共享数据的前提下利用双方的数据实现模型增长。”杨强举例假设两家公司想要建立一个用户画像模型,其中部分用户是重合的联邦学习的做法是,首先通过加密交换的手段建立用户的识别符并进行沟通,在加密状态下用减法找出共有的蔀分用户因为关键用户信息并没有得到交换,交换的只是共有的识别符因此这并不违反《数据隐私保护条例》。然后双方将这部分數据提取出来,将各自拥有的同样用户的不同特征作为输入迭代地进行训练模型、交换参数的过程。多项测试证明了给定模型参数双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护在不违反《数据隐私保护条例》的情况下,双方的模型性能都得到了提高

“数据安全和用户隐私目前已成为大数据时代的两大挑战,对于金融、医疗及法律等数据敏感行业更甚联邦学习可鉯解决这两大问题。”微众银行AI部高级研究员刘洋介绍

目前,联邦学习已经应用于多个行业的业务板块未来,AI与用户隐私的平衡问题會持续伴随AI的发展杨强表示,新一代的机器学习算法框架需以保护隐私、安全合规为出发点,用透明的机制来保障人工智能的健康发展联邦学习的发展提供了新思路。

我要回帖

 

随机推荐