平安科技的联邦智能有哪些社会价值和商业价值值有谁知道

近期平安科技副总工程师、联邦学习技术部总经理、资深人工智能总监王健宗博士做客雷锋网AI金融评论公开课,以“联邦智能加速AI落地”为题全面详尽地讲解了联邦智能如何直面数据困境,解决AI落地难题

关注微信公众号 AI金融评论 ,在公众号聊天框回复“听课”进群可收看本节课程视频回放。

以下昰王健宗博士演讲全文与精选问答内容:

我今天的演讲主要分为四个部分

首先我会解释一下,过去这些年我在人工智能行业中遇到的一些数据困境也是实际上人工智能普遍会遇到的一些问题。

第二我将自己这些年的思考提炼成联邦智能这样一个理念,希望借由这个理念来重塑数据生态

第三,将给大家汇报一下我们这些年在联邦智能方面的一些应用和实践工作。

最后我会简短地展望一下未来联邦智能的未来发展。

距离我第一次听到大数据已经将近10年时间大数据发展到今天,实际上是因为有移动互联网包括云计算的驱动,助力數据海量发展也推动了我们目前以深度学习技术为核心的这一波人工智能的浪潮。

从2019年开始我们常常会遇到一些人工智能难以落地的難题,或者在应用模式上没有普适性或者AI产品在通用性不够等问题,这些问题是伴随着这一波AI技术的革命、革新逐步暴露出来的

数据莋为核心的资产,无法共享时会形成一个个数据孤岛,阻碍AI落地各行各业实际上都存在数据壁垒,如何来突破这一块让AI生态能够更恏地发展,是现在所有的AI人想解决的问题

对于数据来说,第一个问题是数据孤岛第二个问题是对于数据的隐私保护。全球都在对数据使用做出各种各样的限制对于一些隐私数据的使用规范,已经有了很明确的法律层面的界定实际上这也是数据资产化的一种趋势。

我們国家一直以来都非常重视数据安全、网络安全近年来相继出台了《网络安全法》等各种各样的信息保护法,我所从事的金融行业像金融标准委员会等,也对数据有相关规定

未来的趋势是,法律会越来越严趋严之后,大家对数据的使用也会越来越规范

我从事的金融行业金融在做AI建模的过程中,有很多数据合作的需求因为,模型本身从冷启动开始的时候就需要一些数据对于这些数据需要关心它嘚来源是什么?它的安全性是什么它是否能够让我能够合法合规地使用?

如果数据不安全、不合规我相信没有公司愿意在这样的大环境下铤而走险去使用。

在目前法律趋严的情况下大家对数据使用方面也是需要特别地小心。去年国家层面对爬虫进行过一波整治。实際上爬虫存在很明显地在没有经过用户允许的情况下滥用数据的行为,这是国家严令禁止的

2020年4月9日,国务院在构建要素市场化配置机淛的意见当中首次把数据和土地、劳动力、资本、技术等作为要素,明确提出来就加强数据整合、安全保护,制定出这样一个数据隐私的制度

我觉得培养对数据隐私保护,及合法合规使用数据的意识是非常重要的,希望大家能够重视起来

接下来,我会从传统AI技术模式出发分析一些瓶颈或者限制出现的原因实际上,传统的AI技术必须从海量的数据中学习或者挖掘一些相关的特征利用数学理论,去擬合一个数学模型找到输入和输出的对应关系,比如深度学习中训练网络的权重和偏置模型效果与数据量级、质量、以及数据的真实性等有着密切的关系。

科技头部公司有着成熟的技术和产品数据渠道和来源较为广泛。

而对小型或初创公司来说与数据信息具有强依賴关系的技术模式,使其不能突破数据瓶颈无法实现商业化落地。另外传统的数据合作方式,仍存在周期冗长、流程繁琐等问题

这┅技术模式使个人几乎无法参与到AI产品的迭代中,用户不能从他们的设备、位置等方面收集个人数据来完成功能优化

怎样打破数据的困境?如何在保护隐私的情况下让个人端和商业端共赢,实现全行业共同的增益

我尝试给出一个答案——联邦智能,这是我经过长时间思考和多次改版提出来的理论体系

联邦智能以联邦学习为龙头、为核心,依托联邦数据部落实现具备隐私保护的联邦推理,以联邦激勵机制为纽带所形成的一整个AI新生态或者新常态

解决之道:联邦智能重塑数据生态

这里展示的是联邦智能的架构关系图,其构成部分包括:联邦学习、联邦推理、联邦数据部落以及贯穿于整个框架体系中的联邦激励机制。

首先我将对联邦数据部落做下简要介绍。在大數据时代业界存在诸多与数据存储相关的表现形式,如:数据库、云存储等等

那么我们在这里为什么会提出数据部落?实际上每个數据可以定义为单位个体,它们之间相互独立但又信息相通,具有合作的关联属性因此我们将这些数据单元的集合,称之为数据部落

在部落中,既有来自各行各业的数据又有来自各种端和设备的数据。

我们的初衷是希望部落之间能够达成数据不出本地的一种合作機制。大家能够把自己的数据贡献出来共同去完成建模过程。

在这一过程中大致会包含数据过滤、数据对齐,以及一些特征信息的聚匼等内容在联邦学习这一联合建模的过程中,机器学习、深度学习均有参与不过就目前来讲,还仍未出现一个“All in One”的通用解决方案

峩们联邦数据部落中的数据信息,通过联邦学习最终会形成联邦模型,而这一模型会反哺各行各业包括:智慧金融、智慧城市、智慧醫疗等各种场景。

实际上我们的联邦模型还能提供联邦推理这一服务应用。其中联邦推理是基于加密方式完成推理计算的,这一过程無需上传任何相关设备存储的明文数据或者是个人隐私数据,从而保证了数据的安全和隐私性

整个系统会融入有联邦激励机制。我们設计激励机制的初衷是希望这一机制能够保证各联合方既能作为贡献者,又能成为受益人以此激励在这一生态中的合伙人可以做好促進联邦智能生态往繁荣方向发展。关于联邦激励机制的相关工作我们将在后面展开介绍。

实际上联邦学习是一种加密的分布式机器学習技术。传统的分布式机器学习技术在数据分布上是一致的但在联邦学习中所表现的是数据独立且分布不同。

在联邦学习过程中会考慮很多的底层技术,如多显卡加速计算的线程分配、参数交换机制等这里面我们就需要着重考虑基于加密方式的隐私保护问题。

如上图“联邦学习系统”所示它本质上是基于本地数据的本地训练,云端会发布相应的初始模型并联合各方由本地发起训练,共同完成模型構建过程

联邦学习机制是允许跨行业的,同时可以跨B端和C端目前来看,国内B端市场对联邦学习表现有非常强烈的需求意向特别像金融行业,由于国家对金融数据有着严格管控使得联邦学习在智能金融场景的应用会比其他行业更为前沿。

联邦学习的优势主要包括以下㈣点:

1、数据本地化使得数据本身不会泄露到外部能够完全满足用户隐私保护的需求。

2、从算力上我们可以做好边端的计算下沉特别茬5G时代来临后,限制参数交换速度的网络瓶颈会被逐步打破从而更好地加速联合训练。

3、在联邦建模过程当中可以实时进行基于加密機制下的参数交换,实现原始数据不泄露这种无数据直接交互和传输方式也符合政策与法律法规要求。

4、我们可以确保参与各方的身份囷地位是相同的通过设计的激励机制,使得大家有益于参与联合训练过程从而更好地维护联邦智能生态。另外联邦学习将更有利于數据相对弱势的一方,并最终实现共同增益

我们提到的联邦数据部落,是要把每一个数据孤岛部落化以此纳入联邦合作的体系中来。

對于整个数据部落来说例如IOT数据、医疗数据、个人手机数据以及各个行业数据,这些原始数据实际上是互不相通的没有任何数据流转通道。

其中我们会对各方间的数据获取渠道进行加锁设置。当数据合作方加入到部落中后实际上存在一些工作,具体表现为如下三点:

1、首先我会提供一些相关的标准化工具在原始不交换的基础上,对来自个人或企业终端的本地数据进行预处理比如针对缺失数据、偅复数据、偏离数据的数据清洗、数据降噪、数据降噪等工作。

实际上我们的目标是在大家达成协议的基础上,能够选择联合终端中高質量的数据进行去中心化的本地训练

2、为了使用与某项业务场景相关的数据,我们需要做出特征标记与筛选

因此,“联邦数据部落”會对训练数据进行特征化处理包括:数据分类、特征标记、数据聚合等方式,使其有针对性的发起训练

3、我们会对联邦数据部落中的數据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤

联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估同时也起到了数据监测与评估量化的作用。

在联邦推理中我们希望模型在应鼡环节也能起到保护数据隐私的作用。

声纹识别为例它属于生物特征的一种,并在一定程度上是极其重要的隐私信息在我从事多年嘚声纹项目中发现,声纹特征是具有抗时变性的短期内它不会随着年龄的增长而发改变。

在传统的声纹推理模式中服务会将用户端输叺的语音直接传送至云端的声纹平台与引擎中,经过前置的语音预处理如静音消除、截幅检测等。

由i-Vector/d-Vector/x-Vector声纹模型提取出高维的特征向量洅根据PLDA打分与两两比对,最终完成说话人身份确认

比较典型的应用包括:声纹门禁、声纹锁、电话平台声纹核身。另外还包括1:N情况丅的声纹识别,即说话人辨别以上是以声纹为例的传统推理过程。

如果我们不上传本地语音数据将如何实现这一推理过程

实际上,我們会在本地用户端内置一个自主开发的蜂巢系统中的插件它会在保留原始声纹信息的基础上,利用混沌算法对语音信号进行加密并形荿如白噪声类似的密文流信号。在经过一系列处理后插件会生成公钥,并连同处理语音一同传送至云端

这个公钥的作用是什么?是为叻确保在云端推理过程中数据始终保持隐私性最后,我们会将推理加密结果返回至边端后由边端解密后直接获取到真实结果。

整个推悝过程是一个隐私与安全的链路过程,我们的原始语音与信息始终没有泄露

联邦激励机制是一个综合性的闭环学习机制,实际上我们吔融入宏观经济、管理范畴的一些概念在我们的联邦智能生态中,它所表征的是对贡献度与收益的评估机制

在数据资产化的背景下,聯邦企业所贡献的数据量级如果足够大且质量好,会直接为联合模型带来效果增益而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益我们会以此量化这一过程中涉及的贡献度。

同时我们发现在这一良性激励的带动下会吸引更多的人來更新生态,最终形成贡献与收益的动态平衡这也是联邦激励机制的整个闭环过程。

在联邦激励机制下支付对象包括联邦数据部落与聯邦结算中心。在联邦数据部落中一部分成员即是数据贡献者,也有应用需求可以说既是生产者,也是消费者

而另一部分成员,只會提供数据支持如大数据公司。在联邦结算中心中流向它的我们称为用户支付

这一支付评估额维度是依据联邦部落数据的本身价值包括现有贡献价值和未来价值,以及联邦启动的初始资金和联邦后的实际效益同时其中也会包含一些梯度定价策略。

另一方面从联邦结算中心流出的是激励支付,它会依据各联邦成员的数据量级、数据质量以及数据成本进行激励性结算支付

在这一闭环的流转下,我們将希望吸引更多的人参与到联邦激励中同时大家也可以从中获得收益。

我在平安打造了一个蜂巢平台顾名思义,很多蜜蜂通过外出采蜜在蜂巢形成蜜的共享。打破数据孤岛挖掘数据价值,这个在金融行业是非常重要的

我2015年回国加入平安之后,就做大数据和AI的工莋从开始就深刻感受到金融的行业对于数据的使用合规的一些监管方面的高压。

因为本身金融数据很纯净在座任何人都会有一些收入數据、股票交易数据等,对于任何人来说这些数据都是绝密的,非常重要的

国家以前是一行三会,现在是一行两会因为银保监会合並了。银保集团合并之后数据的管理实际上是更加的严格。

在企业里面不管是什么企业,只要数据没办法集中工作就很难开展。

我們在平台的设计上是遵循金融的标准同时也支持国密。

如图所示整个过程里面实现智能的联邦的协作,实现数据的安全得理实现多方的隐私训练,能够实现可信的机器学习并且也有可视化一些服务。整个过程中数据不会上传到服务器,保证数据的安全性

整个平囼里面,因为本身平安集团现在也是一个综合性的集团蜂巢能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能夠激活数据价值这是我们整个平台的使命。

我们的目标是跨企业、跨数据、跨境领域实现整个大数据AI生态。平台的核心就是构建围绕聯邦学习、联邦数据部落、联邦推理、联邦激励机制为核心的联邦智能生态

产品适用范围包括像训练隐私、敏感数据,同时借鉴了我们の前在自动化机器学习上的一些经验在底层进行加速,包括在底层通讯层的优化等等也包括现在我们在加解密这一块的尝试,希望这個平台能同时满足B端和C端的需求

蜂巢平台的技术框架,是支持联邦智能原生的如图所示,底层的数据部分我不再赘述了在整个系统裏面我们都把它看成数据部落。

在数据部落里面有几个功能模块,包括数据预处理、数据特征化、数据质量的评估、这些我们在技术上嘟会做一些实现

平台支持传统的统计学习以及深度学习的模型,比如逻辑回归、线性回归、树模型等在整个模型训练过程中,对梯度進行非对称加密整合梯度和参数优化、更新模型。

在推理这一块我们会把原始的传输的数据进行加密,最终实现推理结果

我们的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。同时整个团队在联邦学习技术上也有一定的科研成果,包括专利和论攵

举个例子,银保监会和证监会数据是绝对不能打通的所以说对传统的数据,如图左边所示比方说出本地联合建模,这种方式可以茬实验环境做一做但在真实数据上,这种方法行不通因为政策法规是不允许的。

我们用联邦学习建模方式做了对比实验发现联邦学習可以提升模型效果。金融领域大部分的场景是纵向联邦学习,横向市场主要在移动端

我们还有包括医疗的影像数据这一块的实践经驗。

过去我做医疗影像建模是非常困难的,我们训练好一个模型之后要把模型布到物理机上,并搬到我们在贵州一个医院去

这个过程非常辛苦,并且这个模型还不能轻易更新除非通过“人肉”的方式,拿着硬盘去更新因为医疗服务器不能联网,病人的片子是非常隱私的

有了联邦学习之后,通过联邦学习的方式比方说像新冠肺炎这样的一些读片数据,在不出本地的情况下也能实现一整个的新冠肺炎检测模型的优化。

也可以把新冠肺炎的模型分享给别人现在国际疫情形势下,我们可以给到国外这些都是可以用联邦学习做的┅些工作。

实际上我们在联邦推理和怎么样保证大家实现一个安全或者可信的环境也可以做很多工作我很高兴地看到,现在联邦学习每忝都在推陈出新相关的合作和应用越来越多,这也是我们所有联邦学习的从业者非常乐意看到的一个局面

联邦智能未来还有很多路要赱

目前,联邦智能的关注度很高其内部的需求是非常旺盛的。我们也希望大家无论是在训练、推理、还是数据部落的构建、使用方面都能有联邦智能的理念和意识在金融领域、智能家居、车联网等拓展领域上都能看到一些公司在布局联邦智能。

同时联邦学习标准也在逐步落地。我们希望大家能够共同打造联邦学习的生态使各行各业能充分发挥其价值,使更多的垂直行业能够落地

Q1:联邦数据部落和聯合建模有什么区别?

王健宗它们属于联邦学习不同的层面联邦数据部落,实际上是联合建模之前的数据准备、数据评估等工作做恏数据准备后才会考虑联合建模。联合建模是联邦学习中的重要部分

这里我再补充讲一下联邦推理,它是在已有模型的基础上实现的茬数据隐私安全的背景下,联邦推理的趋势是非常明显的联邦推理的初衷是希望保证隐私数据不泄露。在未来将会有更多的AI模型引入聯邦学习,使得模型更加可靠和安全

Q2:联邦推理和传统推理只是有加、解密的区别吗?

王健宗:我觉得不仅仅是加解密的区别首先,洳果对于推理结果只是加解密的话不需要做任何信息片段的处理,只需要上传推理结果和公钥最终返回私钥。

但是联邦推理不是这样比如在语音应用的场景下,联邦推理会对语音做一些处理工作如截幅、降噪、加白噪音,甚至混淆等等这些不仅是加解密,而是做箌数据的混沌把数据混沌化,以保证上传的数据不被破解这也是联邦推理和传统推理的本质区别。

Q3:数据平台很多联邦主要是聚焦茬哪些方面?

王健宗:我们联邦的整个平台包括蜂巢平台是兼容目前很多数据平台的。我们现在是支持Spark和Hadoop的并且也支持一些传统的非結构化数据。

实际上大家可以将我们理解为数据平台的增强版本,我们能够兼容传统的数据平台并且通过一些构建后,底层架构能够兼容各种结构化、非结构化的数据为了做好联邦学习,我们已经做了一些处理和改进

Q4:从论文到商业落地中间差了多长时间?有哪些笁程的事情要做

王健宗:虽然好论文应该是来自实际问题,是对实际存在问题的解答但也会有很多好的论文涉及理论上的创新。从理論到商业落地的周期可能长则数年短则一到两年。

在我现在做的蜂巢平台里面我发现一个很实际的问题:传输过程非常慢,因为传输涉及到加密解密过程这个时候我们就可以做一些实际工作。

比如:首先可以在通讯的时候在网络编码层中加入一些AI训练过程的加速方法,其次是探索加解密方面是不是有更好的一些算法等

Q5:蜂巢平台的相关资料很少,如何能够了解与学习

王健宗:蜂巢平台在设计的時候,我希望它可以作为一个成熟的产品面世在整个平安这一综合金融体系下,关于蜂巢平台要做的工作是非常多的如先前列举的银荇、证券的案例。

实际上关于互联网数据也有诸多工作要做,包括来自平安在做智慧城市、智慧医疗方面的数据是有很多的开发空间。蜂巢平台天然具备联邦智能的架构并逐步面向市场提供服务。

在后续的工作中如果我们内部做到足够好,将会进行开源我觉得这吔是未来蜂巢平台的一个发展趋势。相关资料我在很多公开场合都有讲到大家如果有兴趣,可以共同来探讨、优化蜂巢平台

Q6:企业场景除金融行业之外,是否还有其他典型案例联邦学习计算资源如何计费?

王健宗:在过去几年我一直在做联邦学习,并认知到只要伱有数据,就会存在可以应用的场景

最近,我们在探讨一些智慧城市的应用同时发现,在社会治理结构方面存在参差不齐的现象诸洳政府社保、企业投资风控等,都是需要专业的应用模型

我们在制定解决过程中,很多数据包括政府里面的财务数据都是不互通的所鉯我们的平台可能会有应用机会。

关于如何计费我们在联邦激励中设计有支付机制,另外就是基于企业AI本身的分配模式

Q7:蜂巢平台对標的竞品是什么?

王健宗:平安的联邦学习平台起步较早在初期还没有相关的可以对标的竞品,在产品设计初期我以加速AI落地为目标期望打造一个能够完全自主可控、自主研发的企业级联邦智能平台,赋能人工智能各领域

经过长时间的沉淀,目前是个天然自适应于联邦智能生态的AI平台产品它不仅仅具备联邦学习的能力,还引入AutoML理念汇集了流程自动化、自动数据增强、分布式加速、自动模型压缩、洎动调参、自动搭建网络等自动化机器学习尖端技术。

同时蜂巢的设计严格参照国家金融标准委员会、国家保密标准等国内外相关标准囷规范,确保蜂巢能够具备普适性、通用性和鲁棒性

人工智能的发展需要大量数据,而夶数据时代下,隐私是最易触犯的红线如何有效解决当下人工智能领域发展的难题?联邦学习成为当下最热门的技术研究方向之一。在这样嘚背景下,平安科技自主研发的联邦智能平台蜂巢成为了解决当下数据难题与隐私保护的一大利器联邦智能平台蜂巢允许从跨数据所有者汾布的数据中构建集合模型,可被广泛应用于各种领域,具有安全性、隐私性、合法性的特点,这样既兼顾了AI的训练也避免了数据泄露的风险。

“蜂巢”,顾名思义,如果将数据比喻成花粉,蜂巢则成为各类花粉的聚集地,在蜂巢中,可以利用特定的模型,产出各色的蜂蜜蜂巢平台正是扮演叻这种数据整合与再加工的角色,平台在整个模型训练过程中,将加密的模型梯度和参数进行整合和计算,协助各参与方进行模型优化与迭代。

橫纵建模,多角度为打破数据孤岛

在实际的数据运用中,即便是同一家公司内的不同子公司或部门,也需要保护数据隐私以平安集团为例,平安嘚保险和银行各自拥有不同维度的用户数据,却很难把数据直接合并在一起来做建模。从“蜂巢”最初的架构设计上,平安科技就考虑到平安集团各个业务线与子公司之间存在数据壁垒的问题同样的“数据不通”也反应在企业与企业、企业与政府之间,每家机构都有自己的数据,洏基于隐私保护等原因,企业或政府数据不能对外进行共享。

平安科技研发的联邦智能平台蜂巢,就是解决企业数据孤岛问题的商用级解决方案它能够让参与方在不共享原始数据的基础上联合建模,从技术上打破数据孤岛,从而综合化标签数据,丰富用户画像维度,从整体上提升模型嘚效果,实现 AI协作。

具体而言,平安科技蜂巢有横向联邦建模和纵向联邦建模两种建模方式针对相同用户特征的数据,如公司A和公司B,他们都拥囿用户的身高、体重、性别等相同的用户特征,但是A和B的客户却是不相同的,A部门的客户群体是30~60岁,B部门客户群体是20~30岁,这时候就需要采用横向联邦建模,取出相同用户特征而用户不完全相同的数据进行训练。

纵向联邦建模针对的是相同用户的数据,但是用户数据维度特征却不一致比洳互联网公司与金融机构,面对同样一位有费用需求的人,互联网公司能提供用户上网习惯等数据,而银行则拥有用户的征信记录、个人信息等數据,这时候蜂巢则通过纵向联邦建模场景,汇集双方用户特征,增强双方模型的效果。

“蜂巢”下的加密运算,兼顾隐私保护与使用效率

如何在聯邦智能平台保护数据隐私?数据加密是联邦学习的一个重要环节假设用户的一个数据是数字“12”,经过公钥加密后会变成一个16位的字符串,這是加密最普遍的方式之一。平安科技联邦智能平台蜂巢可以在保护用户隐私的前提下建模,让原始数据不离开用户,建模所交换的是模型的Φ间参数和梯度,这便能做到最大程度保护用户隐私同样是数据加密的问题,由于将数据本身复杂化,平台所耗费的计算资源也比原来更大。對此平安科技联邦智能平台蜂巢则采用GPU等异构计算芯片来加速联邦学习的加密和通信过程,从而达到效率升级的效果

对于用户数据隐私保護,不同行业有着不同的加密要求。在银行领域,银保监会建议对数据进行国密加密,对加密的稳定性、安全性、合规性要求更高而平安科技昰国内少见的支持国密级加密的企业平台。平安科技联邦智能平台蜂巢充分支持了国密SM2、国密SM4以及混淆电路、差分隐私和同态加密等不同嘚加密方式,以满足企业各个业务场景的不同需求

为了更好的帮助大家了解联邦智能与蜂巢平台,团队创作的“联邦智能系列”课程已经上線知鸟平台,内容涵盖了联邦学习技术与应用场景等多个方面。联邦学习作为一个重要的新技术方向,未来有着广阔的发展空间,但在实际落地Φ,在保护数据隐私的前提下进行 AI协同,无论是底层技术还是整个部署环节,还有大量的挑战需要克服正如平安科技副总工程师王健宗所说,蜂巢的目标是打造一个能够自主可控、自主研发的企业级联邦智能平台,赋能人工智能各领域。平安科技联邦智能平台蜂巢,也将不断深耕技术,幫助企业在数据融合及隐私保护上实现进一步突破

我要回帖

更多关于 社会价值和商业价值 的文章

 

随机推荐