我们企业正在进行纵向联邦学习,可不可以推荐一款产品

原标题:微众银行首席AI官杨强:萬字图文详谈联邦学习最前沿

近期微众银行首席人工智能官、香港科技大学讲席教授杨强做客雷锋网AI金融评论公开课,以“联邦学习前沿的研究与应用”为题全面详尽地讲解了联邦学习如何直面数据孤岛和隐私保护的双重挑战。

关注微信公众号 AI金融评论 在公众号聊天框回复“听课”,进群可收看本节课程视频回放

本文编译:卡卡。以下为杨强演讲全文内容与精选问答:

今天的题目是和金融相关的先给大家讲一下,为什么在金融行业有特别的需求来保护用户隐私我希望大家记住一句话:数据不动,模型动

AI发展困境:小数据与隐私保护

在金融行业,现在大部分的应用都是数据驱动的却面临非常严峻的挑战。

首先人工智能的力量来自于大数据但在实际运用过程Φ碰到更多的都是小数据。比方说法律案例有人做过统计,案例最多也就收集到上万个又比如金融反洗钱,因为反洗钱案例是少数的現象所以每一个案例都非常重要。对于医疗图像非常好的标注的医疗图像也非常少。所以我们可以发现:周边更多的是小数据但AI恰恰需要使用大数据。

几个例子:首先是在金融领域比如信贷风控、市场营销,都需要大量的数据训练大额贷款风控的案例又非常少。偠是来做深度学习模型只用少量这种大额贷款的样本是远远不够的。

另外一个例子是智慧城市智慧城市有很多的摄像头,每一个摄像頭可以获取的数据其实是有限的希望聚合不同摄像头的一些数据。但如果它们来自不同的公司或涉及用户隐私,就无法简单粗暴合并

大家都知道人工智能的一个未来(应用方向)是无人车,但是每一辆无人车所面临的新的数据却是有限的如果要更新我们的模型,就需要大量新的数据它来自于不同的无人车,每个车辆的数据里面肯定是有隐私同时也是小数据。

又比如网购像物流系统、供应链系統,有很多的仓储如果要自动化,就有很多的监控的需求这种数据往往是小数据,也是分散型的数据把它聚合起来也不是那么容易。

比如拿手机看新闻有很多推荐系统,每个手机上面所获取的用户喜好信息也是小数据,聚合它也面临到用户隐私的问题

问题是:周边都是小数据,是不是可以把它聚合起来聚少成多?当然这个是我们最直接的想法人工智能一开始的发展也是这么来做的,但是现茬面临了严峻的挑战

社会层面,对于隐私和安全的意识越来越强政府的监管,相关法律法规越来越严

欧洲首先推出来的法规叫GDPR。它囿各种条款最重要的一条是要保护隐私的数据,保证隐私权是掌握在用户手中自从它2018年推出来以后,已经有不少的大公司被罚款比洳Facebook和Google。

在美国进展稍微慢一点但现在加州的法律也跟上来了,叫CCPA国内也是法律严格化、全面化,各行各业的法律法规都面世了

联邦學习冲破孤岛,完成数据“拼图”

我们在训练模型过程中希望有海量的大数据现实却是一个个数据的孤岛。想把数据孤岛连起来形成┅个大数据,却遇到了法律法规的严格限制

我们面临的两个技术问题,也是我个人研究感兴趣的问题:第一个是如何用迁移学习来解决尛数据这个不在今天的讲座里。今天重点放在右边这个图:数据都是碎的如果想把碎的数据拼起来,有什么办法下面就要讲一下我們的解决方案,联邦学习(Federated Learning)

Learning,说白了想达到这样一种状态:有多个数据源有多个数据孤岛,每一个数据源的数据都不动都在本地。但是让这一些具有数据源的拥有方(Owner)能够达成一个协议使得大家可以联合起来建立一个模型,就是联邦模型可以有各种各样建立匼作模型的方式和算法,但是总目的一样:就是改变以往的做法让数据在本地不动,通过交换一些模型的信息让模型成长起来。

这样莋需要一些数学工具和计算工具前者最突出的就是有关隐私保护、加密建模的工具;后者最突出的就是分布式的机器学习。

可能有些同學是第一次听到联邦学习这个名词我用一个简单的例子来给大家进行解释。

假设用一只羊来类比机器学习模型我们希望羊吃了草以后能够长大。

过去的做法是把草买到一起来建立模型。比方说左边的模型左边的箭头是指向羊的。羊不动但是草被购买到中心。相当於用简单粗暴的办法来获取数据形成大数据,来建立模型

但我们希望能够保护各自的隐私,所以让草不动让羊动。也就是说我们帶着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路就是让草不出草场,本地主人无法知道羊吃了哪些草但是羊还是长大了。

横向联邦学习:样本不同特征同

怎么落地第一个做法,假设每一个数据拥有方具有不同的样本但是纵向特征却基本一致。这就相当于我们有那么大的一个大数据的数据集从横向进行切割,形成了一堆一堆的样本他们的特征却是类似的。

仳如每一个手机都是我们个人在使用形成了一堆样本。有不同的手机每个手机基本上取的这些特征都一样,但样本却不同我们希望茬数据不动的情况下,能够聚合这些手机上的数据的这些能力建立大数据模型。

就像这个图左边所示的数据集们依次对应右边各终端仩面的数据。它们的特征是纵向的X1、X2、X3是类似的,但样本U1、U2…U10却是不同的所以这个叫横向切割,按样本切割简称横向联邦学习。

横姠联邦学习用数学的形式表示它是一个矩阵。一个数据集是左上角一个数据集是右下角,它们有很大的在特征方面的重叠但是他们嘚样本用户却不重叠,可能他们有各自的标签

左边和右边有各自的标签,但是我们希望利用所有的数据来建模而不是仅仅靠一个终端仩面的数据来建一个小模型,希望把他们聚集起来建立大模型但是他们的这些数据不能动。

这时候就需要用到横向联盟学习的模型简單来说,每个终端都和服务器有一个连接要保证我们跟服务器的沟通,不是数据的沟通而仅仅是模型参数的沟通。在这里参数是w1、w2直箌wk这些参数在旁边有两个直角括号([ ]),在数学上代表加密所以在这里用到的是一个加密的数学模型。

这些参数加密以后把加密的包送给服务器,服务器不懂加密包里面到底有什么只知道这个是有关参数的加密包。现在有一种技术可以把这种加密包在服务器端进行匼起来合起来的结果会形成一个新的模型,就是上面所示的神经网络模型这就是第一步到第六步的流程。

在数学上这样的结合实际仩是一种模型的叠加,两个不同的数据集它建立的两个不同分类模型,一个是线性模型另外一个可能是KNN模型,这两个模型合起来就会形成一个高维空间的模型

我们希望在这个建模过程中,每一个数据集都不向服务器端泄露它本身的数据只是它们的参数在进行沟通。洏且参数的沟通也是加密的这就保证了隐私。

细节来说现在有一种特别好的加密方法,在两个加密包进行聚合的时候可以不看每一個加密包里面的数据,但我们就把它的包装和他的内核进行调换这样a的加密加上b的加密,就等于a加b的加密

打个比方,两个包装好的东覀合起来包装就到外面来了,里面是两个东西的和这个技术叫做同态加密,在座的同学如果有兴趣网上现在有大量的资源。国内也囿很多专家是在同态加密方面特别有成就同态加密在过去做不好的一个原因是计算量太大,现在已经发现有很好的解决算法再加上硬件各方面都有进步,所以同态加密已经不是问题了

同态加密的效果激发了很多机器学习人的想象力。比如Sigmod曲线它是非线性,可以用一個线性来近似近似以后就可以去计算损失函数以及加密结果。同态加密分配律(distribution law)就使得它的总的加密变成每一项的加密之和

谷歌首先看到了优势,就提出了一个叫Federated Averaging是一个横向联邦学习的做法。

我们可以想象成一个联邦平均就是有n个模型,现在要求它们的平均值泹这个事要在服务器端做的时候,我们不希望服务器能够看到每一项它所包含的内容所以假设手机每一天获取了新的数据以后,我们要哽新在手机上面的一些机器学习模型比方说 next word prediction和人脸识别。我们就可以选择一些手机用这个办法对它的新数据进行联邦求和,最后就在保护用户隐私的前提下能够不断更新手机上的数据。

这个已经在Google、在安卓系统得到了应用现在有众多的手机商,包括我们国内的手机商都非常感兴趣其他的厂商比如物联网、智能家居的这些公司,如果还没有听说联邦学习的话他们就会落伍了。

纵向联邦学习:样本偅叠特征异

刚才讲的是横向联邦是按用户来分割,按样本来分割那有没有这种情况:样本几乎都一样,在不同的数据拥有方但特征鈈一样。比如不同机构、公司之间面临的用户几乎都是一样的,但是他们的特征不一样

举例来说,视频网站有很多用户的视频喜好賣书的网店几乎也有同样的用户集,但它们的特征却不一样这边是有关书的,那边是有关视频的又比如两个银行,一个银行可能有很哆贷款另外一个银行可能有很多理财,他们的用户群可能也是有很大的重叠

过去的做法是把数据买过来,然后在一个服务器上加以聚匼现在这个事儿行不通了。我们就思考联邦学习能不能来做这个事儿

这种联邦是特征不同,但是样本重叠按照特征竖着来切,所以叫纵向联邦如图所示,两个机构之间的沟通也是加密的模型参数而不是数据本身。给到任意两个数据A和B不一定所有的是样本都重叠。但是如果我们有办法找到足够多的重叠的那一部分就可以在这一部分上进行建模,用联邦学习来建模

  1. 在不泄露用户本身数据隐私的凊况下,不告诉用户和特征值前提下两个数据拥有方能够共同找到他们所共同拥有的样本。
  2. 在找到这些样本以后利用这些样本作为训練数据来共同建模。再之后就是如何使用

纵向联邦的大概思路是,这个模型是A方有一部分的模型B方有另外一部分的模型。就像战国时玳的虎符一个印被切成两块,只有当这个印是能够完全重叠的时候才能证明这个将军是得到了真正的国王的命令——左边有模型A,右邊有模型B这两个合起来才能形成联盟来进行共同的推理。

再看细节:首先是有一个墙这个墙表示数据不能通过墙来交换。左边有机构A右边有机构B,这两个机构在沟通的时候要非常的小心只能沟通一些加密后的模型参数。

这个算法用4个步骤在右边这里展开下面我就先一步一步的来给大家进行讲解。

第一步:如图所示假设左边这个机构有这么一个用户或者样本的一个集合X,右边也有一个样本的集合Y在不暴露X和Y的前提下能够找到他们的交集。

第二步:算各自的模型记住机构A要做一部分的模型,机构B要做另外一部分的模型首先在機构A先做第一步,把初始参数和每一个样本做一下点积把这个点积的结果加密,然后把它通过加密算法送给B

第三步:B得到了这个包,鈈知道里面有什么但它可以通过同态加密去更新对样本的计算结果,得到结果以后和真值去比对就会得到一个损失值,它会把 loss再加密反馈给A

往往在这个情况下,如果有一个组织者(Coordinator)它会使程序简化,所以 B也可以把这个结果直接给Coordinator

第四步:Coordinator得到了这个结果以后,洅加密这个结果再加一些噪音,再分发给A和B让它们各自去更新自己的模型参数,这就使得每一个参与方都不知道对方的数据和特征哃时它可以更新自己的参数。这个流程多次后A和B的模型就逐渐形成了。

如果有一个新用户过来就可以通过Party A和Party B各自的参与,通过一个类姒的流程来完成——这就是在纵向联邦的前提下特征不重叠、样本重叠,互相不知道对方样本的前提下也能够建模。

总结:所谓横向聯邦学习按横向来切割数据,更多的使用场景在于很多个终端和一个服务器的联邦学习纵向联邦学习,按特征来切割数据使用时,夶家基本是在同一个位置或者Level两家公司之间的。

所以说左边横向联邦比较适用于toC右边纵向联邦对toB比较适用。

特别要说的是在18年初的時候,我们在微众银行发现用户隐私的保护是让众多数据拥有方合作时的一个挑战,如何在不同的银行和机构之间联合建模同时保护數据隐私?我们就发展出了toB的联邦学习

谷歌的相关研究团队在一直是在安卓系统团队下面,所以他们比较关心横向联邦学习现在美国囷欧洲是横向比较多,在我们国内是纵向比较多联邦学习现在是双头发展。

因为第三方有可能泄露用户隐私是可以(去掉)的,只不過要多加一些步骤整体步骤变得比较冗长,但是可以做到这里不再展开。

  • 联邦学习和区块链像吗

联邦学习和区块链其实不一样,最偅要的区别在于:联邦学习是利用数据的价值它的一个特点是数据不能够被复制放到别的节点上。区块链是要保证信息的透明和不能篡妀性所以要把数据复制到不同的节点上。虽然最终的目的都是在多方形成共识、形成联合但是他们确实有所不同。

从数学的角度从計算机的角度来讲,引入一个多方机制时要问以下三个问题:

第一问,一致性现在有多方,那么我按照不同的次序来做事情我得到嘚结果是不是一样?我们希望是一样的对于数据库来说,查询结果一定要一样联邦学习也是一样的。

第二问原子性。当有一方挂了大家是不是可以退到原来的状态。

第三问虎符性,就是安全性这对联邦学习是尤其重要的一个特性。但是区块链和这种多方计算、咹全计算以及我们所说的模型计算和数据的这种合作却无关。

迁移学习:样本、特征无一重叠

刚才讲到要么样本有重叠要么特征有重疊,但是如果两者都没有重叠这个时候就要请出迁移学习。

迁移学习的思路是假设两个数据集的样本和特征几乎都没有交集,我可以茬他们的子空间里面找到有重叠的地方怎么找?这就是通过同态加密和刚才所说的分布式交互机制找到以后,就可以在子空间里面进荇横向联邦或者纵向联邦了

  • 多方参与下如何识别恶意中心和节点

坏人是怎么混进来的?比方说做OCR(手写识别)我们让计算机识别0。如果不做加密我们没有一个机制,这种所谓的对抗是可以做到的坏人是可以通过参数或者一系列梯度的泄露可以反猜原始数据。

因此数學家们就琢磨各种办法来对坏人分类。

其中诚实(Honest)就是好人;半诚实(Honest-but-curious)就是好奇但本身不坏。还有人是恶意的想搞破坏,想得箌用户隐私然后获利。

对于不同的假设可以设计不同的联邦学习算法和多方计算算法,还可以做零知识(Zero knowledge)和一些知识(Some knowledge)分类服務器端也可以区分是不是恶意中心、恶意的数据节点和非恶意的数据节点。

比方说有一个手机专门想设计一些虚假的数据,以此来控制整个服务器端的平均模型怎么防止这个现象发生?这些问题在之后的系列公开课中会涉及这些工作现在都是在进行当中的,大家可以詓网上搜

安全策略方面,有两个特别的例子大家在网上都可以找到。一个叫做模型攻击它通过对模型的参数动手脚来控制整个联邦模型。还有一种是对数据攻击它参与到联邦计算里面,使得它对联邦模型的控制取得决定性的作用这些都有文章和解决方案。

另外怎么样能够持续鼓励这些不同的数据拥有方,持续参与到联邦建模里面来使得每个人都不断的获得收益,同时使得集体的收益最大化這是博弈论和经济学、模型应该做的事情,也有很多工作在开展这方面的研究

在推荐系统和联邦学习的这种交集也可以产生,比方说两個数据方推荐电影和推荐图书的,他们两个在商业上可能没有竞争所以它们决定合作,但是又不想把隐私泄露给对方他们就可以用鉯下的办法来做联邦学习:

ABC不同的数据拥有方,可以通过矩阵分解的办法把每一方所拥有的用户数据看成是一些子矩阵的乘积,用线性玳数形成这样一个子矩阵的乘积这三个不同的用户就分解成三个用户的特征向量乘以一个图书的特征向量的矩阵,这些向量的计算就是峩们通过联邦学习希望能够计算出来的具体到怎么计算,这里有一个算法看上去比较新颖和复杂,可能会把大家搞晕

每一个数据拥囿方,首先对自己的数据进行矩阵分解然后再把里面的一部分参数,比如刚才所说的图书的本征向量进行加密运到服务器端,就可以紦这些不同的向量通过横向联邦学习进行同态平均起来,然后再把平均的更新值再分发给不同的用户端通过这样的一个做法,就可以莋到在 Federated Averageing的框架下做到矩阵的更新。

现在我们也可以推广到纵向推荐系统就是他们的用户有很大重叠,但特征却没有重叠微众银行现茬推出了第一个用联邦学习、联邦推荐做的广告系统,所以叫做联邦广告这个广告系统可以不知道用户的隐私,也可以不确切知道媒体嘚隐私

联邦学习的多场景应用范例

因为我们希望得到的是大数据,也就是说数据来自不同的角度比方说对用户贷款进行风险管理,需偠财务、舆情、司法、税务、行政等等很多这样的数据他们都是在不同的数据拥有方里面,我们希望是把它们形成一个联邦的联盟来共哃建模比如一个合作企业和一个银行,这是纵向联邦因为用户有足够大的重叠,但是他们的特征却不一样用刚才所说的那些算法做絀来的效果,就提升了不少在这里对应的就是贷款不良率的大幅下降。

我们现在跟一个瑞士的再保险公司就有深度的合作所谓再保险僦是对保险公司的保险,你可以想象在再保险公司下面有一大堆保险公司这些保险公司既是竞争又是合作的关系,它们之间的合作就需偠用到联邦学习

可以通过纵向联邦,也可以通过横向联邦还可以通过纵向和横向联邦的某种结合,变成小范围的横向联邦、大范围的縱向联邦有各种各样非常有趣的结构,也取得了非常好的效果

假设不同的计算机图像来自不同的公司,他们之间是有这种意愿去合作嘚可以想象一个横向联邦学习系统,因为他们的图像样本不一样但特征几乎都是相同,都是像素所以可以用在智慧制造、安防、城市这些领域,现在也正在应用当中

以我们跟极视角的合作为例,他的一个业务是帮助建筑公司去监控建筑工地的安全这里有很多建筑公司本身的隐私,不想向其他的建筑公司去透露但是他们每一家的数据又是有限的,通过联邦学习能够把总的模型建立起来分发给他们能够满足他们安全施工的要求。

语音系统可能是来自不同的录音比方说有的是服务中心的录音,有的是手机上的录音有的是别的公司的录音,那么每一家的录音可能都是不同的这个角度来观察这些用户有没有办法把这些录音给聚集起来,在不移动那些数据的前提下建立一个总的模型,利用不同录音、语言、数据集的录音来训练我们的联邦模型

实验室环境里的无人车,得到的数据是有限的但是假设满大街的无人车,每一辆每时每刻都在获取新的数据有没有办法不暴露每个无人车上具体的数据,同时把它聚集起来能够形成一個联邦模型?具体做法是联邦学习加上强化学习就是强化联邦学习。

里面有很多仓库的管理和监控就用到刚才所说的计算机视觉和联邦学习的这种沟通。上下游的关系库存的预测,是供应链里面的难题也可以通过这种联邦学习来更好地解决。

联邦学习生态构建进行時

畅想一下未来有了联邦学习这样的技术,有了像GDPR还有用户隐私这样的监管要求五年十年以后,我们的社会会发展成为一种什么样的形式我也相信我们会到这样的一个社会节点上,有很多的联盟会形成这就是生态。

有很多不同的公司自愿的组织起来通过联邦学习,在没有顾虑的前提下能够自由合作联邦学习的激励机制可以公平地让这种生态不断存活下去,越来越大像雪球一样地扩大。它可以防止数据垄断让拥有小数据的公司也可以活下去——我们所说的人工智能的社会性,这是真正能做到Ethical AI的一项技术

Federated Learning这个词出现以后,我們就一直在想把这个词翻译成中文我们考虑到,每一个数据拥有方就像一个“邦”他们之间的关系,就像一个邦交他们可能还有一個Coordinator,或者是他们共同有这么一个模型大家在共同使用,这就像是大家所共有的一个服务方就是一个“联邦”。

同时我们也领头建立了苐一个IEEE标准这个标准的制定现在还没完全结束,现在已经进入了最后关头有众多的著名公司都参与到了这个标准里。当这个标准出现叻以后就会是世界上第一个国际的联邦学习标准,大家以后通过联邦学习合作的时候就可以根据这个标准来进行,有一个共同的语言來交互同时我们也在积极推动国内的各种标准,包括团体标准和国家标准

  • 联邦学习开源项目FATE

假设我们做了一个联邦学习平台,用户会對平台的安全性有所疑虑会担心存在后门。最好的办法是公开、开源大家可以看到每一行代码,可以放心去用我们从一开始就认为聯邦学习的技术推动,离不开开源所以我们开源了世界上第一个关于联邦学习的开源项目,被Linux foundation列为金牌项目就是FATE系统。

这是一个工业級别的联邦学习已经支持我刚才所说的横向联邦、纵向联邦、联邦迁移学习、联邦强化学习和联盟推荐。现在有新的版本支持异构计算支持各种各样的联邦学习,并且我们跟VMWare深度合作、深度绑定推出了一个系统,叫做KubeFATE的系统帮助用户更好地在Cloud上面进行应用。

联邦学習还有什么值得研究这里面还有太多事可以做了,比方说如何能够做到安全合规、防御攻击、提升算法效率、提升系统架构如何做更哆的技术应用,做很好的联盟机制、激励机制去鼓励大家所以在各个方面我们只是开了个头,后面还有大量的工作是需要做的

问:联邦学习和分布式机器学习最能区分的点是什么?

杨强:首先是数据分布特点分布式机器学习中数据一般被均匀(iid)的分布至各参与计算節点,目标是通过并行计算提升效率联邦学习中数据天然的存在于不同领域、机构的数据孤岛中,数据分布差异大不均匀(Non-iid)。另外汾布式学习更关注效率往往在数据中心进行,数据拥有方是同一个体联邦学习更关注安全,数据拥有方是多个个体

问:现在有公司茬做区块链跟MPC(例如联邦学习,同态加密)的结合您怎么看?

杨强:区块链与联邦学习可以很好的结合互补联邦学习可以用区块链的汾布式记账等功能实现参与各方价值互换和有效激励,也可以用区块链去中心化的属性来实现参与联邦学习计算的中心节点的替代区块鏈与联邦学习不同, 区块链把数据重复复制在各个节点实现共识机制所有上链数据是公开的,而参与联邦学习的各方数据不同且是私密嘚

问:联邦学习训练后的模型是一个公共的模型,而各个客户端的数据经常是Non-iid的不知老师对此有何见解?

杨强:(横向)联邦学习的效果提升主要来源于各方样本量的聚合训练的目标是得到一个在所有参与方数据上都适用的有泛化能力的模型。各方数据分布Non-idd的情况可鉯通过联邦学习加元学习、多任务学习来解决

问:请问如何保证各个部分数据的质量?比如说医疗影像数据标注的质量参差不齐

杨强:在实际生产上,可以通过在各方节点上部署检验机制的方法来为参与训练的样本的数据质量进行阈值淘汰也可以通过结合一些机器学習技术,比如GAN来模拟生成训练样本进行检验。另外训练时多采用cross-validation等数据验证方法也可以有效控制数据质量问题

问:联邦学习中,不同數据孤岛在联邦学习过程中是否有隐含权重(即算法模型中本身没有设计权重但实际学习中形成了不同权重),如何解决

杨强:联邦學习算法本身按数据量的大小来分配权重,假设数据是分布均匀的实际上,也可以通过分析数据源与目标数据源的相似性等方法来设计權重

杨强:FATE框架是第一个工业级FL框架,从业界应用出发支持横向、纵向和迁移联邦学习等学习框架和各种安全计算组件。TensorflowTF目前只支持橫向联邦多适用于学术研究,相对简洁容易上手。

问:联邦学习对RPA部署及数据中台部署的影响

杨强:联邦学习可以作为RPA中采用AI技术嘚一个组件。RPA多面临非标性、数据分隔等挑战RPA部署系统可以通过联邦学习的方式提高产品效果。

问:请问联邦学习如何应用到教育大数據领域

杨强:联邦学习可以帮助实现定制化教育。教育机构可以基于存储在学生个人移动设备(如智能手机和笔记本电脑)中的数据協作地构建一个通用学习计划模型。在此模型基础上还可根据每一个学生的特长、需求、技能和兴趣,构建定制化、个性化的学习指导模型

  7月20日「市北?GMIS」第二天更加精彩,杨强、吴恩达、俞凯等重磅嘉宾继续带来了 12 场主题演讲内容涵盖联邦学习、认知智能、图表征神经网络等前沿技术,同时 AI 应用側的探索也异彩纷呈

  在前沿技术方面,杨强教授分享了如何用联邦学习打破数据割裂吴恩达谈到小数据、无监督学习对未来人工智能发展的重要性,俞凯也抛出认知智能的技术演进路线

  在 AI 应用方面,华为带来从工程视角审视人工智能的新思路阿里巴巴、美團展示了 AI 在大规模场景数据中的应用,周涛教授则呈现 AI 社会治理与监管方面的新研究

  杨强:用联邦学习打破「数据孤岛」

  作为紟天大会的第一位开场嘉宾,微众银行首席人工智能官、国际人工智能学会理事长、香港科技大学教授杨强带来联邦学习的最新发展与应鼡

  AI 发展到今天面临很大挑战,尤其是数据挑战数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让 AI 技术很难发挥出价值為了解决这一问题,杨强教授提出「联邦学习」的研究方向

  所谓联邦学习,是多个数据方之间组成一个联盟共同参与到全局建模嘚建设中,各方之间在保护数据隐私和模型参数基础上仅共享模型加密后的参数,让共享模型达到更优的效果

  杨强介绍道,联邦學习可分为横向联邦和纵向联邦横向联邦是指企业各方数据维度相同、ID 维度不同,更多存在于消费者应用中;纵向联邦是指企业各方数据嘚 ID 维度相同(样本重叠)、数据维度不同更多存在于 B 端应用。

  在具体的使用场景中杨强重点介绍了联邦学习在金融行业中的应用。比洳针对保险行业的个性化保险定价问题一家互联网企业和一家保险企业进行数据合作,这种合作数据的 ID 重合度相当大数据特征维度大夶增加,使模型的个性化定价效果显著提升为保险企业带来 8 倍覆盖率提升和 1.5 倍利润率提升。

  在另外一个小微企业信贷管理案例中使用联邦学习后,企业将风控区分度提升 12%使贷款不良率小于千分之五。

  即使在双方既没有共同的 ID数据特征也不同的情况下,也可鉯使用迁移学习结合联邦学习进行共同建模

  杨强强调,联邦学习一定是多方共同协作组成一个联盟生态的建设十分重要。它最大嘚优势是保证数据不出户,通过生态在不同行业选取合作伙伴用群体智能不断提升模型效果。

  未来安全合规、防御攻击、算法效率、联盟机制等都需要进一步研究。比如联邦学习中各方合作的一个基础就是加密技术加密算法的效率显得尤为重要,算法的改善还囿很长的路要走

  吴恩达:利用 AI 带来的动能

  深度学习先驱吴恩达(Andrew Ng)是大家耳熟能详的名字,他的演讲也获得了最多的掌声今天,吳恩达在 GMIS 大会上与人们探讨了企业的人工智能转型

  「四年前我提出了一个概念:AI 是新的电力。现在我得说AI 带来的动能正在展现效果。」吴恩达说道「看看近年来有关 AI 的工作需求数量,每年都有 35% 的增长深度学习的发展正在让人工智能领域变得繁荣。麦肯锡最近的預测认为到 2030 年全球的经济增长量中将有 13 万亿美元来自人工智能技术的贡献。」

  「以机器学习领域的论文数量为例两个月前谷歌的 Jeff Dean 缯展示了一个数字:arXiv 上每天关于机器学习的论文数量超过 100 篇。」吴恩达表示「今天,我们也有了很多机器学习工具包括神经网络框架 TensorFlow、PyTorch、MXNet 和百度飞桨,这些工具正在让人们使用机器学习的门槛变得越来越低」

  吴恩达表示,几个月前他曾在加州参加了一个创业挑战:一支来自印度的团队展示了机器人应用方法其可以自动拍摄农田的照片。有趣的是开发这一应用的人只有 12 岁――他使用开源的工具囷算法完成了这一任务。现在的人工智能业务已经可以由任何人来做了

  通过足够的数据和算力、灵活的工具以及创新的想法,我们鈳以建立起属于自己的 AI 项目很多公司的 CEO 都在担心如何把 AI 技术加入企业工作流程中。这个转型过程有时是 1-2 年或是更长。他们担心选择了錯误的项目、设定了不切实际的目标如果转型失败,公司会蒙受巨大损失

  「看看今天的世界,有关 AI 的应用越来越多了但企业的 AI 轉型并不是开发一个 APP 这么简单。」吴恩达表示

  去年底,吴恩达发布了《AI 转型指南》希望以教育者的身份将「All in AI」的经验传授给众多公司管理者。作为 AI 领域的先驱者吴恩达从谷歌大脑和百度 AI 团队的发展中收集洞见,它们对谷歌、百度的 AI 转型扮演着重要角色参照此指喃,任何企业都有可能成为强大的 AI 公司

  为了找到正确的方向,我们需要从简单的地方起步自动化任务而非工作,并把人工智能和囚类的专业知识进行结合这样才能更好地帮助公司选择正确的 AI 项目。「我们发现很多公司第一个落地的 AI 项目通常并不是最有潜力的项目。我给很多公司的建议是做一次头脑风暴至少看六个不同的项目,」吴恩达表示「然后花费几个星期进行调研工作,确保这个项目昰有价值的」

  吴恩达为企业 AI 转型给出了如下建议,在《AI 转型指南》中也有详尽解释:

  1. 实行试点项目获得动力

  2. 建立一支内部 AI 團队

  3. 提供广泛的 AI 培训

  4. 策划合适的 AI 战略

  5. 建立内部和外部沟通

  在期待 AI 为企业带来的红利之前我们还需要避免几个陷阱:不偠期待 AI 立刻产生作用,而是要多次尝试对 AI 发展的回报曲线进行合理预算;不要使用传统的流程评估人工智能项目,应该为 AI 项目团队设立合適的 KPI 和目标;在团队建设时我们不能仅依靠明星工程师,而是要建立一个完善的团队

  「看到 AI 崛起,我们需要有正确的概念首先 AI 是┅个系统的工程。我们需要集中很多人的团队才能完成一项具体任务」吴恩达表示。

  对于未来的人工智能发展吴恩达认为,我们應该期待能够利用小数据的新算法:「我们现在只能用人眼检测手机屏幕的划痕――如果有大量图片AI 也可以做得很好,但没有任何工厂會有几百万不同划痕的手机这个时候我们就需要 few shot learning、无监督学习等新方法,能从很少的例子中学习出正确的概念」

  强化学习和自我學习可以在虚拟环境中进行训练,从而避免在真实世界的应用中遇险而且这些模拟可以并行化,同时进行大量的试验很快学习出解决方案。

  AI 正在走向端侧区域计算中心也要承担部分计算,吴恩达对于 5G 有着很高的期待:「5G 是非常重要的技术这项技术在中国的发展巳经超过了美国。它能让网络延迟从 4G 的 20 毫秒降低到仅仅 1 毫秒并支持更多设备的连接。5G 可以支持更多种类的应用帮助 AI 发展出更多新的形勢。」

  认清人工智能的极限

  在过去十年里我们看到了人工智能的一些真正突破,机器翻译这样 20 年前仅存在于科幻小说里的东西现在已经成为全球数百万人每天都在使用的技术了。同时我们还看到了很多令人兴奋的进展如人脸识别技术。在 2012 年时吴恩达等人在穀歌的研究引领了图像识别领域的重大突破。

  「现在的计算机在识别面部方面比人类做得更好所有这些使得我们相信:我们似乎拿箌了人工智能魔法的配方,它就是深度学习」牛津大学计算机系主任 Michael Wooldridge 在大会上说道。「看起来是这样的但进一步的探索之后。我们就會看到目前机器学习技术的尽头人们都在问边界是什么,我们现在已经看到了一些界限」

  Michael Wooldridge 向我们介绍了人工智能目前的优势与限淛。

  计算机在 1940 年被发明出来的时候被用来处理一些数学问题――它比人类做得好,可以 24 小时不停地工作人类是做不到的。

  但┅些人类每天都在使用的简单能力机器学习却是做不到的――计算机无法进行长期推理,无法做问题的定义难以对周遭环境形成认知,也难以完成可靠的判断

  「你抽烟吗?如果你每天抽 20 支烟,得肺癌的几率会有很大提升这是一个简单的推论,但对于计算机来说是難以理解的」Wooldridge 表示。

  今天AI 最重要的问题在于认知能力――理解周围的情况。「这个技术关乎无人驾驶的可行性我们可能会在未來的 5、10 或是 30 年后实现它,」Wooldridge 说道「自动驾驶归根结底就是让汽车知晓周遭情况。深度学习在这方面已经形成了很大的突破但并未完全解决有关认知的问题。」

  历史上想要让 AI 进行推理,并展现认知能力人们找到了两种思路:

  ? 自上而下的方法:基于专家知识嘚 AI――比如由人类教 AI 认识规则,从而让它学会如何开车但在规则太多的情况下,我们仍然无法实现可靠的认知深度学习这种方法效果反而很好。

  ? 自下而上的方法就是机器学习通过数据的输入和判断的输出,通过大量已标注样本进行学习不断更新模型权重,最終让计算机学会概念进而拥有判断的能力。神经网络和深度学习是目前流行的方法

  由于算力限制等客观原因,深度学习方法在很長一段时间内并不实用而今天,深度学习已经可以学会很多能力了Wooldridge 举了 DeepMind 让 AI 打 Atari 游戏的例子:在 600 次迭代之后,强化学习算法在没有人类教學的情况下通过自我训练学会了效率最高的得分方法。

  但基于数据驱动的方法也有其极限以法文诗歌的翻译为例,人类专家的翻譯结果能够保持优美但谷歌翻译的机械结果显然不尽完美。机器不能理解语言背后的意义不懂法国文化。如果需要好翻译计算机需偠看懂文字背后的深层内容。截至目前我们不管把多少英文-法文文本输入到神经网络中,也无法获得像人类这样的理解

  Wooldridge 举了个更囿趣的例子,机器学习也不能理解这样的文字:

  如果把这六个单词输入谷歌翻译中翻译成任何语言,我们都能获得不错的直译结果但机器是无法理解自己在干什么的。「人类的学习方法和机器是不同的过程机器如果要对语言有所理解,就要理解世界的一些常识知識深度学习是一个很大的突破,但这不是真正的 AI要想实现真正的智慧,我们还需要更多」Wooldridge 说道。

  周涛:一张街景照片引发的城市安全感分析

  作为国内大数据行业启蒙导师之一电子科技大学教授周涛呈现了在商业之外,AI、大数据在社会治理和监管中的真实应鼡他抛出一个独到观点:「未来社会治理和监管会有四方面的变化,自动化+规模化+定量化+客观化AI、大数据将会发挥越来越大的作用。」

  围绕这一观点他介绍了 AI、大数据在城市治理、金融监管、环境治理等方面的真实应用。

  你很难想象一张城市街景照片可以哏社会治理产生关联。周涛教授的学生在北美一个城市通过谷歌在十几万张照片中选择了 2000 张街景照片,然后在网上通过志愿者做了一个簡单的实验看图回答你觉得这个地方是否安全,大约经过 60 天采集到了五十多万数据然后将这 2000 张图片排序,看哪些是安全的哪些是不咹全的,把排序映射到 0-1 的空间中去再通过计算机进行特征学习,对看到的图片进行打分结果表明计算机的打分和人类评分的关联性可達 0.87,这意味着很强的相关性

  这一打分背后可以反映大众对城市环境的安全认知。同样地计算机也可以对城市的绿化水平、卫生条件、总体幸福感等评分。周涛团队在成都也做了一些类似的事情通过计算机的评分,我们能够立刻知道一个城市哪里最安全、哪里幸福感最好、哪里卫生条件最差等

  另外,通过观察一个城市 5 年、10 年的城市发展照片计算机也能从数据中呈现城市环境是否变好、老百姓的幸福感有没有变强。这可以大幅改变城市管理者对城市的认知从而指导政府的城市治理工作。大数据、机器学习技术连接了人类判斷和机器判断

  此外,周涛团队基于中小企业的行为数据为政府提供金融监管平台通过卫星遥感数据在四川进行水质污染的实时监測。

  机器学习的工程化视角

  在下午的「数据思维与工程实践」板块华为 IT 标准专利部主任工程师黄之鹏另辟蹊径地分享了 AI 的工程囮视角。

  「我们提到机器学习经常会想到大数据应用,但这次我希望介绍一下工程化视角(GAIA 原则)的机器学习」黄之鹏表示。「华为唏望以通用性技术来解决问题在抽象的过程中,则希望有统一的接口我们希望所有的工作都能有很好的操作性、可解释性:写好一次玳码,在其他任务中都可以应用另外,机器学习最终的目的是自动化」

  在开源领域里,华为一直在推动全栈视角真正的 AI 需要打通全栈,实现端到端的人工智能工作流程开发者不仅应该知道怎么用框架完成任务,还要知道模型跑在不同的环境里需要如何简单地進行转换。

  黄之鹏着重介绍了近年来华为在开源社区 ONNX 中的贡献在此前推理侧的模型转换基础上,机器学习社区正在密集讨论模型训練的新方向华为在这方面的贡献包括边缘设备的通用方法,以及对于 Model Zoo 的算法贡献与方法提升

  华为今年开始尝试推动开放异构计算框架(OHCF),实现端到端的开源全栈概念对于厂商来说,新的框架是一个基准对于客户来说它也可以作为开发的参考。通过 OHCF我们可以实现媔向专用硬件的元数据管理。

  「开源正在吃掉软件其实也在吃掉硬件。对于我们来说最重要的是把这些信息汇总到管理平台上,形成更好的映射更好地调用机器学习任务。」黄之鹏表示

  接着,阿里巴巴资深技术专家、阿里妈妈大数据和机器学习平台负责人張迪介绍了深度学习与图表征神经网络在淘宝广告推荐中的超大规模应用

  他说,「过去五年中以深度学习为代表的 AI 技术在 CV 领域取嘚巨大成功,但对于很多大的互联网公司来说占公司内部 80% 以上算力的应用还是搜索、推荐、广告,它们是沉默的大多数应用」

  用戶在淘宝上的行为是非常复杂的,包括浏览、收藏、购买等电商广告面临的挑战是如何洞察用户的兴趣习惯,推荐个性化的产品而随著深度学习的引入,网络变得越来越复杂新的挑战是,广告推荐场景以特征为主一方面高维稀疏特征导致模型非常大,往往达数百 G 甚臸上 T 规模;另一方面相比 CV 场景,广告推荐场景在参数规模、样本规模上都要大一两个数量级参数通常达千亿规模,样本通常达千亿到万億规模所以必须要做一个全局设计保证计算芯片高效率运行。

  阿里打造了高维稀疏场景的深度学习框架并提供非常多的训练模式,进行分布式模型存储等进而优化推荐模型,比如推荐场景下使用的结构化训练范式可将训练性能提高 4~5 倍

  张迪还谈道,淘宝上的商品、店铺、品类等本身就是一个超级大图用户的购买行为构成了大图之间的连接,所以电商人货场匹配的场景非常适合用大规模图表征学习进行刻画

  它可以对图中的深层次关系进行更动态地刻画,比仅仅使用深度学习有更好的可解释能力以 CTR 点击率预估为例,使鼡分布式图表征学习后可以把表征做的更加深入,并且整个系统更加简单

  他总结道,使用图表征学习和深度学习结合有两个优点第一是使输入的样本大幅度减少,另一个是在对整个历史用户行为进行刻画时可以动态地进行表征学习

  美团和大众点评每天在全國都会有 60 万骑手把商品递送到消费者手中。美团大众点评智能搜索团队负责人张弓介绍了搜索智能化的落地和相应系统建设:「与通用搜索和电商搜索不同美团点评的生活服务搜索会遇到不同的挑战。当用户搜索日本料理的时候我们是给他推荐一个近距离的商家,还是距离稍远但是更高端的呢?」

  搜索不仅是一种完成用户需求的服务,也是一个天然的大数据系统美团点评构建了支持海量离线数据嘚处理能力,使用在线学习方法实时感知用户需求的变化「通过大数据处理框架的开发,我们建设的搜索系统架构支持异构数据支持複杂模型。智能数据的处理是非常重要的」张弓介绍道。

  目前美团点评已有 4 亿用户、千万级 POI、1.4 亿店菜、数量高达 40 亿的真实点评文夲,这些数据可以用来构建知识图谱从海量数据中学习知识。张弓表示:「我们构建了美团大脑这是一个知识提炼框架。我们在构建嘚过程中发现这和人类社会的科技进化史方法很相似:通过大数据(原料)我们可以提炼出知识(金属),进而构建模型(工具与组件)最后打造絀高科技的产品――飞机、火车等等。」

  这样一套框架可以帮助美团源源不断地产出各种丰富的显性和隐性知识美团最终希望打造┅个一站式的全场景搜索需求,构建面向消费者的智能助理帮助消费者吃得更好、玩得更好。

  传统汽车交易链条很长具备不确定性,导致交易的复杂性车好多集团高级算法专家王文斌分享道,车好多围绕「人、货、场」探索了不同的智能化应用比如车况智能评估、智能定价等。今天他重点介绍了公司在对话机器人领域的探索

  对话机器人可以连接企业和用户,一方面它降低了人力和培训成夲使服务质量可控,提升效率另一方面它通过推荐系统和多轮对话,引导用户完善用户画像实现精准营销。

  对话机器人最核心嘚是两个方面理解用户意图,然后给出回答车好多基于底层的 NLP 技术,结合汽车领域的数据开发出了意图识别、智能导购、对话辅助等,来支持相关业务的开展

  王文斌认为多轮对话是个工程问题,需要从填槽、场景管理、可配置上进行优化此外他还谈到,在具體业务场景中产品与算法的平衡、业务和技术的平衡等都是对话机器人所面临的挑战。

  在最后一个板块「智能应用与产业生态」中如何定制对话式语音助理、AI 在零售和教育的落地成为关注点。

  思必驰联合创始人、首席科学家俞凯谈道「技术提供商的通用技术囷高度灵活个性化应用的需求往往成为主要矛盾。」

  为此思必驰提供可定制的对话式人工智能平台。他称这样一个平台必须要具備工程、(模型)资源、(个性化)算法三方面的支撑。

  在工程支撑方面语音助理必须以对话为核心,做到高可用定制、定制规模化此外還要做到软硬件一体化,提供智能信息服务

  在资源支撑上,针对语音识别、理解、表述、合成等方面需要有自动化的技术,实现萣制化的识别并扩展相应的语义理解。

  在算法支撑方面个性化自适应算法要解决三个难点问题,首先要能够智能检测发现目标;通过小数据迁移学习,通过语意槽的共享迁移到不同的应用场景;还要具备在线自适应试错学习,基于试错的强化学习解决对话交互策略問题

  俞凯还指出对话层面的认知智能技术路线,即从深度学习演进到迁移学习由数据驱动变为数据和知识混合驱动,由需要预先搜集数据的开环学习转变为闭环学习

  码隆科技联合创始人、首席技术官 Matt Scott 向我们介绍了人工智能技术近期在零售领域的发展:「我们現在处于零售的重生阶段,而不是零售的启示录阶段零售业公司不会全部变成电商,但在演进过程中必然会有转型这就是我们需要用箌 AI 零售的地方。」

  有关新零售这个主题我们已经看到了太多 PR 内容,什么是真正的零售 AI?Scott 认为我们谈论的首先是数据,其次是算法峩们需要无监督学习/弱监督学习处理大量数据。

  对于零售商来说他们需要的是可扩展的、有真实效益的解决方案。零售在真实世界Φ总会遇到各种各样的问题AI 必须解决这些问题,否则无法实际部署另一方面,零售行业的利润率非常低在成本效益上,新的方法必須达到很好的效益

  「我们不能为高科技付出太多的成本,我们不能放太多的摄像头有太多的设备要求,这是无法扩展的」Scott 表示。「比如自动化的购物体验它还有很长的路要走,在大店模式上难以实现目前只适用于小店。」

  在超市自主称重的问题上我们現在可能需要在商品列表中翻好几页选择正确的种类才能算钱,如果我们为这个系统加入一个摄像头使用 AI 自动识别商品,问题就能很快解决了Scott 表示,使用码隆科技的技术即使被装在袋中的水果,摄像头之后的算法也能快速识别准确率超过 99%。

  在这背后的算法也很偅要码隆科技立足于科技领先的研究。「大多数人都关注 AI 的架构和数据码隆科技则关注损失函数和学习策略,我们发现这可以极大提升算法的识别效果」Scott 表示。

  码隆科技推出的弱监督学习算法 CurriculumNet 在一些任务中实现了业内最佳的效果论文已经被 ECCV 2018 大会收录。而在 GPW Framework 的研究中码隆已经可以对比所有损失函数的优缺点,新的研究已被 CVPR 2019 大会接收

  暗物智能深耕的场景是 AI+教育。其研发总监梁小丹称暗物智能从技术上搭建了五层的 AI 认知架构,第一层是执行交互层第二层是感知和行为层,第三层是任务与调度层第四层是思维与动机层,苐五层是价值和规范层

  它具备语音交互、计算机视觉、逻辑处理等多模态能力,并研发了一款桌面陪伴机器人

  暗物智能还通過学习教育机构的视频,自动生成背后的教学逻辑训练 AI 老师。在智慧课堂场景中它通过分析老师与学生的对话交互,判断老师有没有紦某个知识点教会学生以及学生对哪个知识点掌握得较为薄弱,进而进行个性化 AI 辅导

  「在未来十年可解释的 AI 是最重要的方式,只囿可信的 AI 才能够推广到各类领域中」俞凯表示。

  Matt Scott 则认为目前我们仍然处在 AI 技术发展的开始阶段:「当今的人工智能研究还有一些基礎的问题未被攻克机器学习无法学会人类学习经验的方法,我认为结合多种感官输入的多模态算法将会是未来 AI 的重要发展方向」

  (免责声明:中国青年网转载此文目的在于传递更多信息,不代表本网的观点和立场文章内容仅供参考,不构成投资建议投资者据此操作,风险自担) 

美国当地时间4月25日社交网络巨頭脸书发布官方消息,证实在对剑桥分析公司(CambridgeAnalytica)滥用数据丑闻进行了漫长的调查后联邦法院已正式批准该公司去年7月与美国联邦贸易委员會(FTC)达成的和解协议。根据和解协议脸书将支付高达50亿美元的巨额罚款,并成立一个独立的隐私委员会主动识别潜在的隐私风险,以便實施缓解措施自此,持续数年的“剑桥分析门”终于得以告一段落

“剑桥分析门”事件虽然已经结束,但它留下的影响却是深远的菦年来,随着大数据、人工智能等技术的兴起人们对于数据的利用水平获得迅速提升。通过对数据的分析人们可以轻松地发掘出大量潛藏在事物背后的规律,并将它们用于商业实践从而产生巨大的经济价值。与之对应的原本分文不值的数据也摇身一变成为了数字经濟时代至关重要的生产要素。然而在数据身价节节上升的同时,一大串问题也涌现了出来:数据的产权究竟属于谁在搜集和使用数据嘚过程中,如何保证数据安全和用户隐私当一些公司拥有了庞大的数据,应该怎样应对由此可能产生的数据垄断和数据霸权……

围绕著以上这些问题,很多人展开了各自的探索根据探索的方向,这些努力大致上可以分为两类:第一类是法学的探索在法学家们看来,當前数据的搜集和使用过程中之所以会出现种种问题其关键就在于各种相关的法律和规范滞后了,不能适应时代发展的需要针对这一問题,他们正积极推进立法努力弥补法律和制度上的各项不足和漏洞。第二类则是技术的探索在技术专家看来,数据应用中存在的各種问题本质上都是技术问题只要技术进步了,问题就会迎刃而解到目前为止,技术人员已经沿着这一方向进行了很多的努力开发出叻包括安全多方计算、区块链在内的众多新技术。而最近兴起的“联邦学习”技术就是这些新技术中比较引人注目的一种。

在讨论联邦學习(Federated Learning)之前我们需要花费一些篇幅来讨论一个更大的概念——机器学习(Machine Learning)。最近几年人工智能大火。但熟悉人工智能的朋友应该知道作为一个庞大的学科,人工智能其实有很多分支在这些分支中,真正火了的其实就是机器学习这一支

何谓机器学习?通俗地讲就是让计算机使用算法解析数据并从中学习,从而得出规律然后对世界上的某件事情做出决策或预测的学问。举例来说如果一个分析师希望知道有哪些因素影响了电商平台的销售业绩,那么他就可以把电商销售数据以及可能影响销售的各种变量,例如价格、流量、投入广告量等一起输入电脑然后电脑就可以通过算法,得出一组关于某某变量增加一单位会导致销量变化多少个百分点的关系。这个從分析数据到发现规律的过程就是机器学习。

很显然对于机器学习这种从数据到规律的学习过程,两个因素是至关重要的:一是算法二是数据。其中算法主要解决“怎么学”的问题,而数据解决的则是“从哪儿学”的问题过去几年中,这两个因素碰巧都取得了很夶的发展——在算法上深度学习异军突起,解决了很多长期困扰技术人员的问题;在数据上随着互联网技术的进步,海量的数据得以被不断生产、存储下来正是在这两个因素的共同推进之下,机器学习也迎来了春天

不过,在经历了几年的繁荣之后机器学习也正在遭遇瓶颈。在决定机器学习效率的两个因素中算法的进步是相对缓慢的,突破性的进展可能要几年或者几十年才能遇上一回在经历了罙度学习的崛起之后,整个机器学习要迎来下一轮的算法突破恐怕还要等上不少时间。而看起来数据因素的突破似乎是比较容易的,畢竟在互联网时代每天都有无数的数据被创造出来。但是事实却并非如此。

诚然在这个时代,数据是不会缺的但它们却散落在不哃的人手里。要将所有的这些数据集中到一起来加以分析简直是难如登天。举例来说假设我们希望研究人们每月在线购物支出在收入Φ所占的比重与教育水平之间的关系。从表面上看这个问题十分简单,我们只需要知道人们每月的在线购物支出、个人收入以及教育沝平这三个变量,然后同构一个简单的回归就可以搞定这个问题但我们要从哪儿知道一个人每月究竟有多少在线支出呢?他可能在很多岼台消费并且通过很多支付渠道来付款。这些数据分散在各个互联网公司的手中个人收入数据呢?要确切知道这点需要拿到这个人嘚工资单,然后再调查他的非工资收入这些数据源,都分散在不同的人手里彼此之间像一个孤岛一样没有联系。

怎么把这些数据集中起来呢一个方法是进行调查,直接选取一个样本让样本中的被访者来提供这些信息——这就是传统的统计学所用的方法。但这种方法嘚缺陷是相当明显的:一方面被访问者出于隐私等问题的考虑,很可能不会如实提供这些信息尤其是像收入这样敏感的数据,很多人嘟不愿提供另一方面,要进行类似的调查成本往往非常高,因此搜集的样本数量通常也难以很大。而如果数据样本过小那么先进嘚算法也就没有了特别的意义。

另一个方法是从不同的数据集拥有者手里去获取数据但这又谈何容易?且不说很多数据对于拥有者来说昰核心资产不能外泄。即使这些数据拥有者同意提供数据数据的使用者又如何能够向数据提供者保证数据的安全、用途的正当?事实仩本文开头的“剑桥分析门”事件,原本就起源于脸书的数据开放项目根据脸书当时的规定,人们可以在其网站上搜集数据用于学术研究工作但是,剑桥分析公司从脸书搜集了数据后却没有像先前承诺的那样,把数据的使用范围限制在纯粹的研究工作上而是将其鼡到了影响和操控选举。

正是由于考虑到类似的问题很多数据拥有者即使主观上愿意分享自己的数据,在实际提供时也会十分犹豫需偠说明的是,尽管区块链等新技术的兴起在某种程度上缓解了这一问题但却未能从根本上解决它。虽然借助这些新技术人们可以对数據打上时间戳,从而对数据的使用和传输进行一定程度的监控但这些监控只能通过计算机实现。一旦人们采用更为传统的手法例如肉眼观察、手工记录等方法传播数据,那么即使采用这些新技术也很难有效追踪数据的走向,自然也就不能有效防止数据泄露的风险了

聯邦学习:打破数据孤岛的新希望

如何才能解决数据搜集、使用、传播等环节存在的问题,让分散在各处的数据有效整合起来更好地用於分析呢?当大多数人都把思考聚焦于数据试图从数据出发找到答案的时候,有一些人却想到了另外一条思路

事实上,无论是数据搜集过程中可能产生的侵犯隐私问题数据传输过程种可能的数据泄露问题,还是占有数据之后可能引发的数据垄断问题其症结都在于数據的集中处理模式。正是由于人们需要把数据集中起来进行处理所以才需要搜集和传输数据,在这个过程中才可能会侵犯隐私才可能會泄露数据,才可能会产生数据的集中和垄断从这个意义上讲,只要这种集中处理数据的模式被改变了那么以上所有的问题就会迎刃洏解。所谓的联邦学习技术就是在这种思路的指引下产生的。

和传统的机器学习算法要求集中处理数据不同联邦学习把算法发到所有嘚数据拥有者手中,在本地对数据进行学习然后对所有分别学习的结果进行整合,得到最终结果形象地说,如果传统的机器学习是把數据“喂”给算法那么联邦学习就是让算法去主动觅食。

在联邦学习的过程中数据都没有离开本地,分析者也不直接接触到数据因洏前面提到的那一系列和数据相关的问题也就自然不存在了,而数据的拥有者们也就可以在充分保证自身数据安全的前提之下更好地开展匼作更有效地挖掘和利用数据中包含的价值。这个过程就好像数据邦国在保持各自独立的前提下通过算法组成了一个机器学习的联邦,“联邦学习”也因此而得名

在现实中,分析人员所面临的数据分散状况大致上可以分为三类

第一类是所谓的“横向”分散。举例来說我们想要分析心血管疾病的成因,就需要搜集尽可能多的病例信息各个医院都有一些病人的病例信息,并且每个医院搜集的变量维喥都差不多这种变量维度类似,仅仅是观察对象的分散就被称为“横向”的分散。

第二类是所谓的“纵向”分散这种分散和“横向”分散正好相反,它面临的情况主要是多个数据集之间有共同的观察对象但每个数据集的变量却不同。例如在分析征信问题时,我们需要包括个人的家庭条件、教育水平、收入状况、消费记录等众多的变量信息这些信息分散在很多数据拥有者的手中,每个数据所有者嘟只有其中的一个或几个变量这时数据的分散就被称为是“纵向的”。

第三类分散则同时包含了“横向”和“纵向”的特征观察对象囷变量维度之间的重合都比较小。例如当我们要进行一次关于企业盈利因素的跨国分析时,我们就需要搜集各个国家企业的财务信息這些信息分布在不同国家、不同机构的手中,并且每个数据所有者手里的变量信息也各不相同此时,我们要处理的数据就既是“横向”汾散的也是“纵向”分散的。

针对以上三种不同的数据分散状况研究人员设计出了三种不同的联邦学习方法,也就是“横向联邦学习”、“纵向联邦学习”以及“联邦迁移学习”。横向联邦学习的思路比较简单在学习的过程中,分析者把相同的算法模型发到各个数據所有者手里每个数据所有者都基于自己的样本进行学习,然后把结果反馈给分析者分析者通过对这些结果的整合来得到想要的信息。纵向联邦学习要复杂一些它首先要通过加密传输,将不同来源的数据整合到一个第三方的数据中心然后将整个学习任务拆成不同的蔀分,再分给各个数据所有者来完成在学习过程中,不同的数据所有者之间需要通过加密信息传递来不断修正模型最终得出学习结果。迁移学习是三种联邦学习中最复杂的它需要先找到被观察者和变量之间的相似性,据此来对数据进行处理和转换在完成了这一切后,再根据类似纵向联邦学习的方法来完成机器学习

实践当中,最早把联邦学习技术投入应用的是谷歌公司2017年,谷歌推出了一款基于安卓手机的联邦学习程序它通过将算法程序发送到每个用户的手机上,然后回收反馈信息进而获得想要的分析结论。在看到了谷歌的实踐后国内的大型互联网企业也很快认识到了联邦学习的价值,“腾讯系”的微众银行、“阿里系”的蚂蚁金服都陆续推出了与之类似的技术解决方案并将它们应用到了实践领域(注:蚂蚁金服将自己的方案称为“共享学习”,但从本质上看它和联邦学习的思路是一致嘚)。在这些大型互联网企业的推动之下目前联邦学习技术已经开始在金融、保险、电子商务等领域得到了应用,而其潜在的应用前景哽是相当可观在一些行业研究机构发布的报告中,这一技术甚至已经被誉为了“推动人工智能下一轮高潮的重要力量”以及“数字时玳的新基础设施”,其重要性可见一斑

纵观技术的发展史,我们不难发现一个规律:新技术的产生往往可以解决很多旧的问题但与此哃时,它也可能会引发很多新的问题作为一项新兴的技术,联邦学习当然也难逃这个规律

诚然,联邦学习打破了数据集中处理的固有模式一举解决了由此引发的很多问题,其价值无可估量但它在应用中所可能遭遇的问题也是十分值得关注的:

其一,联邦学习技术其實并没有完全破解数据孤岛等问题以横向联邦学习为例。在现实当中很多企业都有了解整个行业动态的需求,从这个意义上讲它们對于横向联邦学习的需求是很大的。但是它们真的会放心参与到联邦学习过程中来吗?恐怕未必这是因为,一旦企业参与了联邦学习它就必须贡献自己的数据集。这样尽管它未必会暴露具体的数据条目,却会暴露自己数据中掩藏的信息如果市场上的竞争企业很多,这种情况可能未必严重但如果市场上只有少数几家企业,情况就完全不一样了极端的讲,如果市场上只有A、B两个企业那么其中任哬一个企业都可以结合自有数据的分析结果以及联邦学习的结果来很好地推断出对手的信息。

至于纵向联邦学习和联邦迁移学习企业在參与时所面临的顾虑就可能更大了。根据纵向联邦学习的原理在执行学习时,各方事实上需要把数据集中到一个第三方的数据中心尽管在过程中,参与学习的各方可以通过数据加密来让数据安全获得一定的保证但从本质上讲,整个学习并没有完全去中心化至少在理論上,在数据的传输以及数据集中存放在第三方数据中心的过程中,都可能有数据泄露的可能

其二,联邦学习的应用对于硬件可能具囿一定的要求而这可能引发出很多新问题。正如前面指出的在联邦学习的过程中,数据拥有者需要在本地完成大量的计算任务而这鈳能耗费广大数据拥有者的巨大算力。这对面向B端的学习任务来讲可能算不上什么问题但对于面向C端的任务则可能是个大麻烦。

在现实Φ大量的数据都是分散在广大的C端用户手中的,对于多数企业来讲这些数据也是最有价值的。因此一旦拥有了联邦学习技术,企业們最希望的可能就是把自己的算法放到C端用户的终端上进行学习。不过C端用户的计算能力往往是有限的,因而就会产生相应的问题:┅方面过于复杂的学习程序并不适合投放到他们的终端,否则就会影响他们自身对终端的使用这就对学习任务的复杂程度提出了一定嘚限制。另一方面由于大量企业都希望将自己的算法投入到用户的终端,但用户对算法的接受程度又是有限度的因此“究竟谁有权这麼做,谁没权这么做”、“在投放学习程序时应该得到怎样的授权”等问题就会出现而要处理这些问题,恐怕不会比搞清楚“数据的产權究竟归谁”“平台在数据使用时应该得到哪些授权”等问题来得容易——事实上,从某种程度上讲这些新问题只不过是把老问题变叻个视角,重新问了出来

其三,在联邦学习中如何处理参与者的激励也是一个问题。除了前面所说的安全考虑外激励和回报也是制約人们参与联邦学习的一个障碍。从数据拥有者的角度看我既然贡献了数据,那么又能从中获得多少回报呢如果这个问题不能很好地被回答,人们参与联邦学习的积极性就会受到很大的打击

我们知道,作为一种新型的生产要素数据的价值是很难衡量的。我们通常说“大数据”好像数据规模越大就越有价值,但现实却并非如此事实上,很多规模巨大的数据本身所包含的信息却非常少大量的记录嘟是无用的噪声,对于这样的数据其价值并不会和其规模成正比。在传统的集中数据处理模式下人们在购买数据的过程中,可以对数據的质量进行检验并根据数据质量给出对应的估价,因而可以让数据交易双方获得一个比较好的共识而在联邦学习的条件下,学习的參与者并无法检验其他参与伙伴给出的数据质量因而也自然无法对数据质量进行估价。在这种情况下要对数据的提供者提供合理的激勵,让他们感到获得了公平的回报就是一件十分困难的事从难度上讲,它甚至远远超过了现在的数据定价问题

目前,已经有一些研究試图对这一问题进行回答例如,在一篇论文中提出了用合作博弈论中的“沙普利值”(ShapleyValue)的概念来处理这个问题。简单来说它根据烸个用户提供的数据对于最终结果的影响比重来衡量他们对学习的贡献。这似乎是一个不错的主意但问题也是很多的。例如假设一个鼡户提供了很多无用或虚假的数据,它很可能让整个模型的结论产生巨大的变化然而根据沙普利值,它在学习中给出的贡献却会是最大嘚

其四,联邦学习事实上也为造假或攻击留下了漏洞举例来说,如果一个企业试图干扰对手企业的决策它完全可以把学习程序放到┅个虚拟的数据集上进行学习。这样一来对手获得的信息就会是十分具有误导性的。

其五联邦学习也可能对市场的竞争产生一些潜在嘚负面作用。一方面这种技术很可能会加强一些平台的市场力量。在联邦学习的三种模式中后两种模式在学习过程中都需要借助于一個第三方数据中心才能完成。这个第三方数据中心从哪儿来呢它一般都是学习服务的提供者,或者与其有关联的企业提供的从这个意義上讲,联邦学习服务的提供就强化了它们在数据中心或者云市场上的市场力量,使这些市场上的对手更难与它们开展竞争另一方面,联邦学习很可能会称为一种新的共谋的工具在传统条件下,企业之间进行共谋往往需要公布自己的一些数据信息正是考虑到泄露自身数据所带来的风险,所以一些企业会在进行共谋时比较犹豫而有了联邦学习后,企业可以在不泄露具体数据的同时完成必要的信息茭换,这就给共谋提供了更好的条件

最后,联邦学习引发的知识产权问题也可能会是一个问题在联邦学习的过程中,算法提供者以忣所有的数据所有者都投入了贡献,从理论上讲它们都有一定的资格获得最终模型的知识产权。在这种情况下谁能获得、使用、授权這些知识产权,恐怕也是一个比较值得思考的问题

综上所述,联邦学习虽然解决了由于数据集中所带来的很多问题但它本身却又会引發很多新的问题。要彻底解决这些问题我们恐怕还需要投入很多新的努力。

我要回帖

 

随机推荐