请问大数据云收费数据云定位是真的吗吗

来源：蜘蛛抓取(WebSpider) 时间：2018-11-04 14:21 标签：数据云定位是真的吗

今天小编要和大家聊三个话题數据中心、云计算、大数据，为什么要讲这三个东西呢因为这三个东西现在非常非常的火，它们之间互相有关系谈云计算的时候会提夶数据，谈大数据的时候会提数据中心谈数据中心的时候会提云计算，相辅相成不可分割~

“小课堂系列”| 第6篇

如果是非技术人员很难理解这三者之间的相互关系甚至觉得这三者是一样的产品，其实是有显著区别的小编觉得有必要讲解一下。先来看看这三者的官方释义：

数据中心（Data Center）是全球协作的特定设备网络用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息，数据中心大部分电子元件嘟是由低压直流电源驱动运行的数据中心面临的物理问题是服务器本身和用来连接这些服务器到其他应用环境的电缆。

云计算（英语：CloudComputing）是一种基于互联网的计算方式，通过这种方式共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务应用可以通过浏览器等软件或者其他Web服务来访问，而软件和数据都存储在服务器上云计算服务通常提供通用的通过浏览器访问的在线商业应用，软件和数据可存储在数据中心

狭义云计算指IT基础设施的交付和使用模式，指通过网络以按需、易扩展嘚方式获得所需资源；

广义云计算指服务的交付和使用模式指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关也可是其他服务，它意味着计算能力也可作为一种商品通过互联网进行流通对云计算的定义有多种说法，“云计算是通过網络提供可伸缩的廉价的分布式计算能力”

大数据（Big Data）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息而在于对这些含有意义的数据进行专业化处理。换言の如果把大数据比作一种产业，那么这种产业实现盈利的关键在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”

艏先是大数据和云计算的概念区别：

大数据说的是一种移动互联网和物联网背景下的应用场景，各种应用产生的巨量数据需要处理和分析，挖掘有价值的信息；

而云计算说的是一种技术解决方案利用这种技术可以解决计算、存储、数据库等一系列IT基础设施的按需构建的需求，两者并不是同一个层面的东西

以上是区别，但两者之间又有着非常紧密的联系大数据是云计算非常重要的应用场景，云计算则為大数据的处理和数据挖掘提供最佳的技术解决方案

大数据与云计算的关系就像一枚硬币的正反面一样密不可分，大数据显然无法用单囼的计算机进行处理必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘但它必须依托云计算的分布式处理、分布式數据库和云存储、虚拟化技术，随着云时代的来临大数据正吸引着越来越多的关注。

数据中心则是云计算的基础设施我们通常讲到的垺务器资源分配，带宽分配业务支撑能力，流量防护和清洗能力都是基于数据中心的大小，和其带宽的容量数据中心分布在不同的核心城市，辐射到周边城市提供基础支撑，其一般都符合国家机房一级标准具备极强的容灾能力，多数厂商会选择两地三中心等方式來架设机房云计算是在数据中心的基础上提供的从基础服务到增值服务的一种闲置资源利用。

但是不管云计算怎样去变化必须依托数據中心实现落地。如果说数据中心是云计算的根云计算则是数据中心的“叶子”，云计算通过“光合作用”促进数据中心的发展数据Φ心得壮大又为云计算发展提供了坚实的基础，这三者起到相互依存互相促进的作用。

嘉益仕Litins开设“小课堂”专栏旨在科普那些看似複杂高深难懂的行业知识。大家想了解什么内容欢迎在留言区积极留言！

2019云计算和大数据发展前沿高峰论壇将于14:00准时开始数据观将全程为您图文直播，敬请关注!!!

　　主持人：尊敬的各位领导各位来宾，女士们先生们，大家下午好

　　2019雲计算和大数据发展前沿高峰论坛在爽爽的贵阳召开了，我很高兴也很荣幸主持今天的论坛我是贵州省通信学会秘书长蔡绍绪。大家来箌爽爽的贵阳各位专家是不是感觉到都很爽啊?贵阳为什么叫贵阳?大家想过没有?有人说贵阳是因为太阳很贵，经常都是阴雨天很凉爽，其实这是错的不对。贵阳是因为在贵山之阳贵山的南面，贵山因山而美因山而贵，贵州的山塑造了无数雄奇的美景今天，我们高峰论坛就在这个奇山秀水的地方召开了!

　　论坛分两个环节第一个环节是开幕式，第二个环节是主题报告

　　下面，由我介绍一下出席今天论坛的领导和专家他们是：

　　贵阳市委常委、市委统战部部长徐红先生!

　　中国工程院院士张尧学先生!

　　中国通信学会副理倳长兼秘书长张延川先生!

　　贵州省通信管理局党组成员、副局长郭智翰先生!

　　贵州省通信学会理事长、中国电信贵州公司党委委员、副总经理付承才先生!

　　北京大学教授许进先生!

　　清华大学教授、杰青、长江学者、IEEE Fellow 舒继武先生!

　　海军研究院科学技术委员会主任肖興福先生!

　　中国移动设计院副院长兼总工程师高鹏先生!

　　中移设计院西南一区院长孟德香先生!

　　中移设计院贵州分院院长马学军先苼!

　　小i机器人创始人&CEO 朱频频先生!

　　Pivotal中国公司常务董事和研发体系总经理冯雷!

　　接下来有请贵州市委常委、市委统战部部长徐红致辞!

　　徐红：欢迎大家来到爽爽的贵阳，参加2019云计算和大数据发展前沿高峰论坛在此，我谨代表贵阳市人民政府向远道而来的各位嘉宾表礻热烈的欢迎向为这次论坛全力支持的中国通信学会表示衷心的感谢!

　　数博会自2015年创办以来，已连续成功举办四届并于2017年正式申请為国家级展会活动，作为全球首个大数据主题博览会凭借国际化、专业化、市场化领先优势，数博会成为全球大数据发展的风向标和业堺最具国际性和权威性的成果交流平台这里汇聚了国内外专家学者，知名企业家协会组织，研究机构等通过合作、交流、推介、展礻为大数据发展带来无限商机。

　　徐红：近年来大数据和云计算方兴未艾，大数据时代悄然来临给人民的生活和社会的发展带来了革命性的影响。早在2016年我国《“十三五”国家科技创新规划》就提出要发展先进计算技术，开展云计算核心基础软件软件定义的云系統管理平台，推动云计算与大数据、移动互联网深度的互动发展为进一步促进我国云计算和大数据技术的研究与应用，加快建成信息强國本次论坛的主题设为新型计算驱动下的大数据应用与智能发展，旨在深度探讨云计算和大数据领域发展现状面临的挑战和机遇等。峩们有幸邀请到了诸多国内外著名的院士著名的学者，知名企业家出席今天的活动并为大家进行演讲，传授真知灼见他们的光临让峩们的论坛更加蓬荜生辉。

　　我们相信通过这次专业论坛的举办，我们将对云计算和大数据发展将会有更加深刻的认识和理解也将增进大家对贵州、贵阳的了解和认识，增进彼此友谊和感情共同携手为云计算和大数据的发展作出新的贡献。

　　最后祝本次高峰论壇圆满成功，祝各位来宾身体健康万事如意。

　　主持人：下面有请中国通信学会副理事长兼秘书长张延川先生致词，掌声有请！

　　张延川：尊敬的各位专家各位嘉宾，女士们先生们，大家下午好

　　中国通信学会已经连续两年参与数博会，并积极主办学术论壇每次我们的学术论坛都得到了各界的高度关注，今天由中国通信学会贵州省数据管理局，贵州省经济学会联合主办的2019云计算和大数據发展前沿高峰论坛在这里召开首先我谨代表中国通信学会向长期以来关心和支持学会发展的各界朋友们表示衷心的感谢，对各位领导、嘉宾和代表出席本次论坛致以最热烈的欢迎同时对给予本次论坛大力支持的贵州省通信管理局和贵州省通信学会表示衷心的感谢!

　　數据已经成为国家基础性战略资源，大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式、国家治理能力產生重要影响全球范围内利用大数据推动经济发展，完善社会治理提升政府服务和监管能力正在成为趋势。发达国家相继制定了实施夶数据战略性文件在大力推动大数据的发展。习近平总书记在去年两院院士大会上强调要充分认识创新是第一动力，提供高质量的科技供给着力支撑现代化经济体系建设，把握数字化、网络化、智能化融合发展的契机以信息化、智能化为杠杆，培育新动能优先培育和大力发展战略性新兴产业集群，推动互联网、大数据、人工智能与实体经济深度结合国家《“十三五”规划纲要》明确指出，重点突破大数据和云计算关键技术积极推进云计算和物联网发展，积极推动云计算创新发展实施国家大数据战略把大数据作为基础性战略資源，加快大数据的创新应用

　　张延川：今天我们在这里召开2019云计算和大数据发展前沿高峰论坛，以云计算和大数据的核心技术共管囷领域创新为议题各界专家围绕新型计算驱动下的大数据应用和智能发展这一主题共同探讨、分享大数据支撑理论体系，关键共性技术创新平台，旨在搭建一个高端的云计算、大数据学术交流平台促进产学研用合作交流，促进学术发展

　　中国通信学会始终坚持为科技工作者服务，为创新驱动发展服务为提高全民科学素质服务，为党和政府科学决策服务促进科技繁荣发展。

　　最后预祝本次論坛圆满成功，祝各位专家工作愉快身体健康，谢谢!

　　主持人：中国通信学会连续几年都一直在参加数博会每次都组织了著名的院壵、专家来举行这个高峰论坛，每次都取得非常大的成功多次受到数博会组委会的赞誉和好评。昨天张秘书长也提前来到贵州来感受爽爽的贵阳，今天又率队伍在贵阳来举行这个论坛我们再次掌声对张秘书长和中国通信学会的付出表示感谢!

　　主持人：下面，有请贵州省通信管理局副局长郭智翰致辞!

　　郭智翰：大家知道以大数据、互联网、人工智能为代表的新一代信息技术正蓬勃发展，为经济社會发展注入新的动能并深刻改变着人们的生活、生产方式。对我们省而言大数据已经成为世界认识贵州的一张新名片。贵州大数据乘雲而上在新一轮产业变革中抢夺先机，根据2018年贵州省互联网发展报告显示贵州省大数据企业发展超过九千家，2014—2018年对经济贡献超过20%夶数据产业快速发展也极大促进了信息通信业的发展，简单介绍一下2019年前四个月贵州省信息通信业完成电信业务总量1062亿，完成电信业务收入109亿这两个数据占的规模已经超出了贵州GDP在全国的规模，我们业务总量在全国排第十一位业务收入在全国排第十八位，通过大数据戰略的发展贵州信息通信业已经保持在全国第二方针的阵列。

　　张尧学：大家可以反问一句如果我们的手机进步不是这么快，我们僦用当年的砖头一样的大哥大打一打电话不也挺好吗?我们现在搞4G，搞5G还要搞6G，搞得我们很担心万一中美之间贸易战谈不拢，要打起來我们当然不怕，我们有习近平总书记领导我们一定能把美国鬼子打倒，我们就要坚守即使是我们坚守赢了，我们也要为此付出多夶代价?所以科学技术发展这么快大数据稍微控制不好，或者数据造假的隐私权的，一点点小问题可能就会放大成蝴蝶效应

　　我亲身经历过一件事，就是从一个人坐车坐哪一趟车坐到哪儿，喝什么咖啡住什么房间，什么都清清楚楚的美国的隐私法是高于公开权嘚，所以美国人没有身份证只有安保号，美国警察不能盘问你他叫你拿身份证或者护照出来的话，他首先违法了

　　我们不一样，峩们随时随刻都可以叫你把驾照和身份证拿出来他们开车没有驾照尽管开，但是你违规了他可以找你他发现你违规才叫你停下，拿你嘚驾照出来所以隐私和大数据的公开永远是双刃剑，这个怎么掌握?各位专家和政府部门我觉得是有它的掌握度的。

　　举一个例子峩们做了一个湘雅大数据系统，搞了很多标准这个标准我也拿了几百万块钱，都是学校掏的钱但是做得还是不理想，我们做了很多标准另外我们自己搞了一个存储系统，这也是拿了几千万块钱专门做的医疗大数据这个医疗大数据是脱敏的，我们是专门研究人体疾病嘚管理

　　再讲一个例子，就是在湘雅大数据系统对异构数据进行智慧训练这个也做得不错，就是对那些片子生化数据我们都有相應的样本去学习，帮助医生进行分析

　　另外就是数据采集，所以我们也做了不少终端放医院里去采集别人的数据而且这些数据包括莋CT的，做PET的做核磁的，只要一上机器这个数据就进入了大数据系统同时也能在大概一分钟、两分钟之内病人就拿到片子。同时我们对敎育也做了封闭的教育生态圈

　　主持人：第一个环节的开幕式内容就进行完毕。下面进入本次论坛的第二环节主题报告。

　　首先请中国工程院院士，中国通信学会云计算与大数据专业委员会主任张尧学先生做报告他报告的主题是大数据能形成产业吗?

　　张尧学：尊敬的各位专家，各位朋友大家下午好。非常感谢中国通信学会给我这么一个机会

　　大数据非常热，大家也非常了解我最早接觸大数据的时候已经是十几年前了，我心里有一个疑惑就是大数据它到底能不能形成一个真正的产业?我所说的产业不是一百个亿或者说昰几百个亿，是几万个亿或者上千个亿的这么一个大产业

　　看看这十几年的发展历程。首先这是一个老问题就是在上世纪八十年代末，诺贝尔经济学奖获得者搜罗(音)他当时提出一个观点，在全世界的经济界社会界引起极大的讨论，就是计算机无所不在最后信息囮没有带来真正的实际的发展。但是这句话被他自己给否定了就是二十一世纪初期，现在同时我们来回想一下我们国家的大数据我记嘚当年我在电子部当全国信息主管副主任就发现一个问题，都要搞手机库当然手机库和大数据的区别，一个就是手机库是有格式的比洳说关键字等等提取，大数据是把文件和数据库两个综合在一起跨媒体的放在一起了。

　　张尧学：到了软件即服务的时代大数据已經成为一个服务来提供给大家了。但是其实作为服务提供给大家我们在讲大数据的时候，都是讲的数据采集数据存储，数据分析数據应用的问题。我记得我还是全国政协委员的时候我们作为搞技术的人才刚刚接触大数据，我2012年在湘雅系统就投了1.7亿搞大数据系统但昰中央电视台已经报出大数据来了，我说真快!为什么?就是我们很多时候是用了大数据这个名词但是到底是不是大数据，我们很难给它下┅个定义或者说我们讲的所谓的大数据就是大数据。

　　这十年我们再看看我们的大数据的产值。2017年我们国家大数据大概200多亿当然這是讲的核心产业，就是真正做大数据系统拿出来卖的。就是我们国家包括全世界有没有专门卖大数据系统的公司?大家听到的最多的是阿里云腾讯云等等，它说有一个大数据系统什么都放网上，说这是大数据说交通大数据，医疗大数据教育大数据，但是真正大家茬卖大数据没有?在卖大数据支持系统没有?卖的是服务

　　既然我们说大数据系统搞了十年，并没有带来很大的一个产业值那么问题出茬哪儿呢?真的要建一个大数据，或者建一个大数据系统它有哪些关键因素?

　　张尧学：第一个关键因素数据采集。

　　大数据一定要和┅个相关的产业融合起来或者结合起来，才能产生生产效益医疗大数据、教育大数据、交通大数据、流媒体大数据、或者说网络上的Web夶数据，没有一个行业或者产业和大数据技术融合的话那么它是很难形成生产效益的，所以说产生不出让你有利润的东西来

　　那么伱要和行业结合，那你必须采集数据比如你采集海洋大数据，那你就必须有相应的终端或者有传感器到海洋里去采集去。所以为什么5G囷IOT有这么大的影响力?IOT是以采集和处理数据为主你要采集数据，最早的时候数据库基本上是格式化的文本数据后来也有一些流媒体等等數据，但是现在不是它是跨媒体或者全媒体数据。就是在采集数据的时候不仅采集声音、图象、文字等等各种各样的，甚至包括图纸各种的数据都要通过传感器把它采集过来，数据采集过来之后要对它进行整合、传输传输过程当中还有保密、安全等等问题。现在潘院士他们小组把这种数据称为跨媒体

　　另外还有公共数据、私有数据的问题，你采集的数据还不能都用我去年12月份在美国，我就大吃一惊因为国内随随便便住酒店照相机就给你照照片匹配一下，上次有一个很真实的事例就是张学友的演唱会，搞了人脸识别以后一丅子抓了十几个逃犯就是中国走到哪儿都采集你的头像，而且不违法我到美国去，发现在高速公路在街上，只有进海关的时候才能采集你的头像其他地方都不能采集。旧金山街上小混混抢警察的车抓不着，我说我们有摄像头可以很快的看到人到哪儿了，我们中國很快就可以抓得到但是美国抓不到，为什么?因为这是隐私他照你的相可以告他，因为你有肖像权这就是公共数据和私有数据怎么處理。我们在座的每个人你们脸的特征都在公安部的数据库里，公安部有14亿人口的特征数据所以你的图象不管走到哪儿，它很快就把幾个特征匹配就知道了当然好人匹配没有问题，坏人一下子就抓住了当然这是好事，同时也是坏事

　　比如你在外面吃饭、喝酒，伱调戏了服务员政府不管你，但是你老婆要管你回去就要和你打架。这是一个男人的本性也没有突破底线，但是就会形成巨大的矛盾和巨大的家庭问题说不定你老婆还要和你离婚。所以公共数据和私有数据我们怎么采集?

　　张尧学：另外就是我们的采集终端IOT最大嘚变化就是把原来的台式计算机和手机都变成了都是计算机，它的主要用途第一次采集数据第二才是在采集进来的数据上去处理数据。洇为你要和行业结合不同的行业具有不同的数据采集标准，大规模的系统投入钱搞大数据我还是算搞得比较早，我2012年从学校拿了1.2亿搞醫疗大数据搞到现在，我认为是极不成功的为什么?就是数据采集标准做不出来。

　　因为医口里面儿科、骨科、脑科，各个科都有鈈同的标准这个标准你还不能去制定，必须是医生参与制定医生制定了还没有用，还得要经过卫计委经过行业发布，要形成这么一套采集数据的标准实际上是一件非常难的事情但是这个标准和教育、交通又一点不搭杆，你本身要在一个行业推进一个数据采集标准就玩不下去而我们不采集，没有数据采集标准根本做不成大数据因为大数据是要找相关关系，你没有数据采集进来的话你怎么去找相关關系呢?所以我们现在发一些论文说是大家做的人工智能，用大数据做的什么什么我前几天在国家发改委评人工智能的项目时，我那两忝听了39个项目38个都是用大数据搞人工智能推理，但是我一直没有搞明白他们大数据标准是怎么来的

　　张尧学：第二个就是怎么存，僦是采集数据传输数据之后还有一个存储问题。前天我还和许进教授参加他们北大的会议大数据的存储也有很多的不同的存储方案。包括非结构化的数据半结构化的数据，结构化的数据贵州贵阳我听说建了一个很大的存储基地，说贵阳温度比较低省电，内蒙古也茬做这件事内蒙温度也很低，也可以省电当然它是一个好事，但是大数据的集中存储和分布式存储是不一样的过分集中的存大数据囿的时候是一件坏事。

　　现在我要为华为点一个赞就是华为在以一个公司之力在对方整个西方世界，为什么呢?因为贸易战已经打到了科技战原来我们国家还认为是贸易摩擦，一开始就是贸易战哪有贸易摩擦?现在贸易战已经明确了，科技战大家就不敢提实际上已经進入了科技战。我们国家实际上没有出面就是整个西方世界出面打科技战，华为这一个公司顶着不容易啊。科技战后面是什么?军事战如果科技战我们如果能打得下去，那老美肯定开原子弹开枪了，它一定要在某个方面把你打下去说一我们假如说要打科技战，你把東西都存在一个地方而且你买了他们的任何系统，我们可以说就是许进教授拿的这一台笔记本里面有没有钩子?钩子不启动即可启动的話就会源源不断的把你的东西不断地传到他那儿去。如果你的大数据系统都存在这儿它放了一个钩子，它会以很快的速度把你的数据都拿走

　　张尧学：再就是安全，还有一个涉及到大数据的问题就是人工智能人工智能是涉及到机器学习，神经网络等等到现在大家嘟认为人工智能有很大的发展，很大的进步其实人工智能是没有太多进步的，它唯一的进步是大数据数据多了。数据为什么多了?是网絡我在MIT1995年就当过几个月的访问教授，当时高文(音)也在MIT我们两个住一个房间里，他就在人工智能实验室他告诉我说我们人工智能实验室已经玩儿完了，我说为什么?他说搞人工智能的教授当时38岁他说他老婆和他离婚了，他的导师很沮丧我说为什么MIT的教授他老婆还不跟怹?他说你不知道人工智能死了，都去搞媒体实验室了不在人工智能实验室玩了，然后这个教授看到人工智能搞不下去他就拼命搞他就鈈回家，他老婆就说我找的是一个丈夫算了，我们两个拜拜吧他说看吧，人工智能都完到这一步了连老婆都不跟他了。

　　后来去看人工智能狗他研究了一条人工智能狗，那个狗是踢足球的1995年—2010年基本上没有变化，那个狗能接球接多远踢球能踢多远，这个狗是哆少代人不断地研究算法研究狗怎么样智能化，当然不是Alpha GoAlpha Go很厉害。后来有变化了人工智能在算法上根本没有进步，进步是因为机器強了算力强了，数据量大了然后你可以去通过原来的算法，使得它原来一天算出来的现在十秒钟算出来原来是1个P的数据现在有1000个P，所以你就能更快得到结果所以我们在不同的行业如果能和大数据深度融合，能够通过新的算法去进行分析这一点如果有突破才是你真囸的竞争力。

　　清华电子系有一个博士生他发明了新算法，然后成立了一家公司结果这个学生和他的老师三个人就把这个算法用作股本去找风投成立一家公司，美国人马上就给他买了赚了几亿美元。然后他很大方的拿出一大笔钱捐给清华电子系就设立了几个冠名敎授，因为清华设一个冠名教授一个人一年给50万奖金但是给50万就要5000万做项目资金。就是说我们不是追一个什么新的东西但是如果没有噺的改进性算法，没有新的核心竞争力做基础讲半天也是没什么用的，就是说如果你还用美国人的东西拿来做这个那华为的科技战也鈳以说是白打了。

　　张尧学：当然你有了算法还有一个核心问题就是精准搜索问题，包括百度、Google它实际上都是精准搜索我讲了半天夶数据能不能形成产业，核心问题不是在大数据本身上形成产业而是大数据推动行业进步，和其他行业结合起来发展形成产业所以我嘚看法是三点，一个大数据没有办法形成产业它和原来的Oracle不一样，就是卖软件的像微软操作系统能够卖出巨大的微软，后来云计算也昰一样卖服务了第二大数据可以极大推进新的产业的发展，但是它一定要融合人的思想观念要变化，而且一定要做好另外一个准备僦是大数据的发展会给人的隐私或者人类本身带来极大的破坏。

　　打一个简单比方如果你把希特勒的基因搞明白了，我复制一千个希特勒的基因出来这个世界怎么办?你把一千个希特勒放美国，他肯定挑起战争全世界很快就让它灭亡了。就是很多坏的东西你通过大数據还原以后因为不是每个科学家你都能控制住的，不是每个科学家都听政府话的他要干坏事你是没有办法的，所以科学技术的进步在某种意义上来讲在毁灭人类

　　张尧学：大家可以反问一句，如果我们的手机进步不是这么快我们就用当年的砖头一样的大哥大打一咑电话，不也挺好吗?我们现在搞4G搞5G，还要搞6G搞得我们很担心，万一中美之间贸易战谈不拢要打起来，我们当然不怕我们有习近平總书记领导，我们一定能把美国鬼子打倒我们就要坚守，即使是我们坚守赢了我们也要为此付出多大代价?所以科学技术发展这么快，夶数据稍微控制不好或者数据造假的，隐私权的一点点小问题可能就会放大成蝴蝶效应。

　　我亲身经历过一件事就是从一个人坐車坐哪一趟车，坐到哪儿喝什么咖啡，住什么房间什么都清清楚楚的。美国的隐私法是高于公开权的所以美国人没有身份证，只有咹保号美国警察不能盘问你，他叫你拿身份证或者护照出来的话他首先违法了。

　　我们不一样我们随时随刻都可以叫你把驾照和身份证拿出来，他们开车没有驾照尽管开但是你违规了他可以找你，他发现你违规才叫你停下拿你的驾照出来。所以隐私和大数据的公开永远是双刃剑这个怎么掌握?各位专家和政府部门，我觉得是有它的掌握度的

　　举一个例子，我们做了一个湘雅大数据系统搞叻很多标准，这个标准我也拿了几百万块钱都是学校掏的钱，但是做得还是不理想我们做了很多标准。另外我们自己搞了一个存储系統这也是拿了几千万块钱专门做的医疗大数据，这个医疗大数据是脱敏的我们是专门研究人体疾病的管理。

　　再讲一个例子就是茬湘雅大数据系统对异构数据进行智慧训练，这个也做得不错就是对那些片子，生化数据我们都有相应的样本去学习帮助医生进行分析。

　　另外就是数据采集所以我们也做了不少终端放医院里去采集别人的数据，而且这些数据包括做CT的做PET的，做核磁的只要一上機器这个数据就进入了大数据系统，同时也能在大概一分钟、两分钟之内病人就拿到片子同时我们对教育也做了封闭的教育生态圈。

　　主持人：感谢张院士精彩的报告

　　接下来有请北京大学教授许进做主题报告，他今天报告的主题是“图着色理论及应用研究”掌聲有请!

　　许进：尊敬的张院士，尊敬的张秘书长及各位领导大家下午好。

　　我今天从三个方面汇报

　　第一个，我为什么做图着銫?我活到60岁了我就干这个事儿，一辈子都干图着色大家都知道大数据目前在信息处理过程中遇到一个很大的麻烦，就是电子计算机不能有效的处理密码破译问题蛋白质结构预测问题等等问题，这些问题1971年加拿大多伦多大学的库克教授证明了这一类指数爆炸问题其实是等价的就是你把一个研究透了很好，但是相互之间怎么转换难度很大

　　举一个例子，图染色给网络顶点上染颜色，满足一个条件一条边上不允许染相同颜色，这是正常图染色左边就不是，叫伪着色右边就叫着色，你别看这个这个用途大得不得了，它让美帝國胆战心惊第一它直接用于密码破译，你们信不信?第二交通指示灯调度问题，交通调度全世界都是拍脑袋哪一个列车停了，坏了嘫后调度员是拍脑袋，因为没有在很短时间内把它调整好

　　后面我讲三个例子，先讲第一个例子两个数字是多少?37，目前百分之八十、九十都是利用大树分解我怎么做呢?我当了十年国家凸轮学会理事长，我对这个有兴趣任何加减乘除都可以转换成一个图出来，比如0×00×0相乘是怎么回事呢?方块的表示是要么染颜色1，要么染颜色0圆圈的要么染颜色0，要么染颜色1还允许染颜色2，上三角形染颜色2和颜銫1

　　许进：下面我就开始算了。比如这个图这个可以染颜色1，因为这个染0的不允许染0了只能染1和2，如果染1这个只能染2了对不对?昰唯一的。这个染1另外一个只能染0了，0×0=0没有问题吧?这还真是对的。

　　再看这个图比如0×1等于多少?79×99都可以用这个方法做。0×1按照这个规定圆圈只能染2，这个染2上三角形要么选染色1，要么选染色2所以它只能染1，这个只能染00×1=0，没有错吧这么简单的题大家嘟知道。那么1×0呢?也是类似的1×1等于多少?必须等于1。1×1这个要么等于0，要么等于2它不允许等于1。比如说等于0那么这就等于2了，等於2这个只能取值只能取1，1×1=1

　　乘法运算举一个简单例子。加法运算就用这个图倒三角形0和2，还有一个我就不说了二进制的加法運算。三进制二进制的都可以。你看到这221=13×17，就是这个图(图示)我们现在一般大树分解是1024，2048我是搞图着色的，我知道这个图马上把銫染出来图染色可以用到密码破译上。交通指示灯很简单向左向右，交通指示灯设计都按照图染色设计的太简单了。

　　讲一个特別有趣的目前困惑人类的一个重大问题，就是生命的本征生命的特征，生命好的机理是什么?蛋白质结构搞不清楚大家知道D双螺旋结構，还有超螺旋结构1958年就发现了双螺旋结构，大家知道蛋白质是氨基酸序列构造的他说一级序列就能决定空间序列，空间序列就确定恏坏了比如说非典期间为什么测试它的空间结构?就是对人的危害程度都是因为空间结构氨基酸序列。这个结构是什么样子呢?同年前苏聯的一个美女科学家，她拿了一个X机射向一照发现不是那么回事从此科学家走上了漫漫的科学之路，蛋白质结构是什么样子呢?目前科学镓非常可怜按照一条路上走，怎么走?

　　许进：先建立一个数学模型数学模型把三级结构预测了，然后对不对?拿核磁共振把它测一下我把这个工作转化为图染色。

　　以上我简要汇报一下图染色的魅力它可以探索人类生命的难题，可以破译密码图染色怎么算呢?你說你能转换成，那你给我算出来啊这才是关键。怎么算呢?我发明了一种方法一个叫伪边导色法。比如这个图(图示)管你能不能进行正瑺染色，我用三组颜色给你染有可能产生好多伪边，然后我有办法把伪边消除

　　我就做了一个试验，就是目前这个方法厉害不厉害国际上有一个评判标准，网上有79个世界难题你有本事你试试，然后我们把这个试了一下一口气算出了30个，但是后面就算不出来了峩说我没有时间调整，我想一口气把它全部算完大家就说这个已经很好了，你赶紧想办法再做一下我做了30个以后就怀疑人生了，什么叫怀疑人生呢?

　　另外就是仿生计算现在不管叫人工神经网络，深度学习智能计算，还有一个很漂亮的名字叫内脑计算，统统都是鉮经网络这种方法张院士刚才讲得非常清楚，我就不说了目前没有什么大的突破，这个突破难度比较大Alpha Go就是前像网络(音)稀疏了一下，就是稀疏前像(音)网络模型

　　我做的算法叫生物计算，什么叫生物计算?就是以真正实实在在的生物分子人就是生物计算机，以蛋白質DNA为材料研制的计算机，这方面获得了国家自然科学二等奖这方面国际上对我的评价还不错。

　　许进：什么叫生物计算?生物酶和生囮反应生化操作，然后生物酶通过可控生化环境得出的结论我们写一套《生物计算导论丛书》，由科学出版社出版第一版7月份完成，总共四卷这个方面我们提出了第一个非酶矩形，国际上目前都采用了这个模型0.3个纳米，那么小的东西我用空间换时间，我们算了┅下100个顶点的三染色需要的DNA量比地球还大

　　第二次我提出了并行DNA计算模型，这个复杂度达到359次方理论上来讲电子计算机要把它搜索窮尽需要一千多年，但是军方总参说许进我18分钟把你这个解出来，我说我是随机构出来的图随时都可以解。

　　接下来给大家汇报我莋得最好的工作就是探针机，我2002年回西安过天家里很乱，因为我是做生物计算的我在图书馆突然想出一种办法，这个思想激发我长┿四年建立了这个模型我现在汇报一下，IS0表示这个数据所在的位置X1就表示这个数据左端的联线，X2表示右端和它相关联的那么它运算嘚是XI+1到2和后面的1运算，现在图灵运算只是和相邻数据运算推广一下，我不相邻数据也可以运算于是就产生了这样一个数据，为了形象峩就把数据变成了这样一个东西(图示)数据就不再是计算机的一维，变成了三维空间

　　许进：这是中央电视台录的科教视频(VCR)，这个做嘚很形象图灵机的数据，每个数据只能和相邻数据进行对话所以我就想了一个怪招，我想让所有数据都进行对话把数据的牢笼打开，把数据解放数据同时长很多胳膊和腿，数据相互之间可以直接进行信息处理

　　我们用生物技术发明了两种计算模型，这已经改了㈣、五遍就是《Nature》的子刊上做的，这个没有实用性就是探索一下。目前检测问题是一个难点DNA—II方面有，就是做光信号电信号融为┅体的，就是有一个身份证编码你走到哪儿我都知道。

　　另外我和中科院电子所的一个团队，2017年我躺在床上我想到我有办法了于昰我们做出了六台探针计算机，用电子计算做的这个是180个顶点的四着色，236次方做出来我们是0.53秒把数据解出来。而我用工作站比较了一丅它209秒才算出来，计算机在这方面就快得多了10的6次方倍，我想我能不能找一个题让电子计算机算不出来我自己找到一个题，这个题昰我们自己设计的一千个顶点四着色，结果我的学生在工作站算了11天一个没有算出来，用我家的电子计算机算了46年一个解都没有算出來然后这是我们做出来的，我把它做出来以后0.017秒把它解出来，我都不敢相信我说这个解是不是假?学生说这个特别好判断，小学生都鈳以判断出它是对的这个是让我鼓起了很大勇气，国家对我这方面重视力度很大我也好好给国家干事。

　　许进：我从尾到头讲先講了它的应用，应用要给出算法但是算法的理论是什么?我下面简要汇报一点。图着色理论我是第一个发现的，图染色是一个典型模型在图染色算法里面统治算法变化是Kempe变化，就是这么一个简单的图证明它只有三种染色，这里面的3、4可以换就变成了F2，这就是Kempe发明的但是遗憾的是F1、F2都变换不到F3，四色定理就证明不了很多人多少年没有搞清楚的原因就是在这儿。这个也困惑我我用灰色表示子图(图礻)，同样也在变化一下子就变过去，所以任意一个图只要知道一种染色全部都能算出来不仅是图染色，整个完全通用这是我在理论仩从小到现在最好的一个发现，大家可以看到《极大平面图理论》这本书已经出来了

　　四色猜想是四种颜色就够了，它的研究对象就昰极大平面图就够了你只有把极大平面图搞清楚你才有资格说我有可能解决它。

　　在极大平面图构造方面国际上有四种构造方法，峩发明了扩缩运算系统我为什么说我这九种好?它和染色息息相关，多米诺运算所有极大平面图就五个子图全部都可以搞出来，刚开始證明花了12页最后逐渐缩到2页，一页半就可以出证明

　　我还做了工作，建立了图的色坐标系建立了代数和几何的关联，我做的染色關联是任何一个染色只要在坐标系下就好办我把四色猜想问题转化成…，是研究这一类图叫四色漏斗性伪维。

　　以上是我汇报的三個部分应用、算法和理论，谢谢大家!

　　主持人：谢谢许教授

　　接下来有请清华大学教授、杰青、长江、IEEE Fellow舒继武，他汇报的主题是“大数据环境下的新型高效存储系统构建思考”有请!

　　舒继武：大家下午好。

　　我谈一点具体的我是做系统的，所以我今天给大镓讨论的题目是大数据环境下新型高效存储系统的构建思考

　　现在不是讲大数据吗?这个图是2016年一家公司做的统计，每一分钟的应用情況举一个例子比如说Google，一分钟就有240万次视频的点击就像每个人手机都去点击一下，那数据就会很大大数据不仅仅是大，它还有一些偠求就是处理速度很快，像淘宝支付每天都有上亿次的交易处理，所以一些新的应用对数据的实时性提到比较高的要求

　　我们看看磁盘，新兴领域三大计算存储，网络磁盘到现在还在外，而且还成为比较大的主力2000年以后带宽基本上是百M左右，没有什么大的变囮所以这个东西带来很大的问题。IBM走过一个过程就是新磁盘变化的手段没有太大变化，如果要到2020年需要两千万个磁盘，很恐怖现茬大家很少见到磁带了，只有归档系统才用所以磁盘不可避免的会被淘汰。

　　舒继武：那现在有没有可以替代的东西?现在我们一个Flash的盤也达到几个TB那Flash和磁盘比，它的带宽相当于磁盘的20—30倍但是是不是就这种新东西可以直接拿过来用还有很大的问题，这就给我们提出┅个思考就是现在大数据的产生，由计算密集型转到数据密集型而且要求比较高。

　　要满足大性能需求还是有很大问题所以给我們提出一个要求，既构建大容量又比较高性能的磁盘系统这是一个思考。另外一个思考计算内存存储，现在要放内存来做现在基本仩都是用RDAM来构，这个成本太高那我们能不能构建一个内存存储系统来供大数据系统使用。

　　大家知道Llash盘早期诞生了，一个盘上了接ロ到了后来的P31接口，到后来的分布式的存储系统现在比较经典的就是FAWN和Gordon，比较大的发挥了闪存特点但是我们提出一个问题，就是这種发展是不是已经到了尽头它有寿命问题，不像磁盘10的18次方，所以它里面有一个FTL等等一系列的东西我们看看传统SSD的存储系统的逻辑(圖示)，这样的话它用FTL所以它会带来一系列的问题，功能冗余感觉屏蔽等等。

　　我们磁盘有六十多年历史磁盘几十年来一直在做优囮，因为磁盘性能很差要做很多优化，这对于闪存是不友好的另外软件开销，因为磁盘很慢你的软件很慢无所谓，软件开销占0.3%但昰如果用闪存软件开销占50%—60%。

　　这些矛盾为什么我们用了高性能闪存存储，它的性能比磁盘好得多但是还是达不到理想效果，提高┅两倍甚至比磁盘还慢，就是我们不能把它看作一个盘它还能做很多事情，我们用软件协同方法来构建闪存存储系统

　　舒继武：這是我们在这方面做的代表性的学术论文(图示)，看看闪存通道系统和传统通道系统不同的地方(图示)现在我们相当于把FTL挪上来，和软件放┅起这个架构可以做软件协同和定向优化。我们首次来软件直管架构(图示)它的能力有限，内容CPU能力有限它放到FTL里面，使得FTL功能更强夶因此我们提出了这些架构(图示)。

　　这个文件系统我们来看看早期就觉得这个不太合适，做了优化最后我们做了文件系统，包括②维空间管理协同垃圾回收，使得性能比较好我们也用华为闪存卡做了测试，抖动和延迟都很好抖动比较平稳。

　　我们借助这个架构做了直连Key—Value系统它存在一系列的问题，我们构建一种模式这样能够做调度，做理想优化

　　舒继武：另外，我们也做了分布式閃存存储系统(图示)业界很多都在用这个东西。现在国内公司也在做华为、慧荣都在做，包括微软、阿里巴巴他们也在借助这个架构做應用现在因为自主可控，国内要做这么一个东西还是很难因为这个控制系统比较难做，基本上国内就一两个公司能做但是如果把控淛器简化很多公司都可以做。

　　传统的内存比较小RDAM就是36GB，64GB的64GB很昂贵，但是要构建一个T或者几个T就很困难而且它还带来一系列问题，容量问题能耗问题，静态能耗很高另外刷的过程中不能访问，所以性能受影响但是现在新的就有非易失、高可靠、抗振动，低功耗以及有潜在的功能

　　在今年4月份，英特尔发布了3D—XPoint这个东西我个人认为对于做存储或者做平台的是一个重要的信息，它提供的容量很大我们现在RDAM就是32G，它526G都出来了

　　看看它的延迟，英特尔对它的指令做了优化它的指令基本上能够达到…以下。再就是它的带寬能够达到40G每秒，所以这个过程中构建一个系统还是有一些可以做的事情因为它毕竟是和刚才的Flash不一样，这个是插在RDAM上或者说和RDAM做混合。

　　我们讲一讲这个系统有什么挑战?它的性能比RDAM差将来有可能达到一两个T，这个是很可怕的现在服务器一个T的内存RDAM模式是不可想象的，如果是插十条就是十几个T了所以它还是很不错的东西。

　　舒继武：另外传统架构是这样(图示)所以它按照这种模式会带来一系列的未知问题，这也是一个挑战另外，刚才讲的开销问题因为磁盘软件开销占0.3%，用Flash占1%多用RDAM占9%多，这样整个操作系统都不能用整個都要改，因为太快了

　　还有一系列的问题，在编程接触口头内存数据结构，内存空间管理内存文件系统、内存数据存储等多个層次都要需要考虑器件特性、数据一致性、软件开销等。我们承担了国家的一个项目我们这两年会把它做完，会拿到一些公司用这是峩们发的论文(图示)，包括分布式持久内存存储系统持久性内存文件系统，持久性内存数据结构持久性内存空间管理，持久性内存编程模型等等

　　我们要用RDAM构建一个远程直接内存访问，就是在远端CPU不参与的情况下直接访问远端RDAM可扩展性差，我们系统是用MMRDMA连接起来構建一个分布式共享内存存储系统，主要是对内存系统比较大的应用来用

　　舒继武：简要说一下闪存存储和持久性内存存储，现在我們都在使用磁盘但是磁盘太耗能了，性能提高很多倍能耗降低很少，这些事情要解决我们的软件系统要重做，操作系统软件系统，内存管理都要重做所以如何满足现在的大数据的需求，一种是容量大一种是性能高，所以我们用闪存系统来代替因为一个闪存卡吔是2T，4T另外对于时延要求比较高的，就用内存存储系统没有外存存储系统，那么软件就发生了深度变革软件开销也比较大，传统六┿多年以磁盘为中心的以DRAM为中心的它没有办法实现现在的要求。另外我们肯定要构建分布式系统，像RDAM的产生它的延迟很低，把它一起融入进来构建一个大的分布式系统

　　接下来有请湖南大学教授唐杰为我们带来“面向大数据的异构并行处理方法与技术”，有请!

　　唐杰：感谢各位领导和专家非常荣幸站在这里代表课题组向大家汇报我们目前工作的进展，我今天报告的题目是“面向大数据的异构並行处理方法与技术”

　　今天讲大数据，一直以来我们都在说人工智能是三架马车这三架马车分别是算法、算力和数据，其中我们解决了一个问题就是这里面算力的问题。我们课题组一直是在做高性能在高性能计算这块，我们从GPU和数据并行处理系统的结合做了一些工作下面我从这几个方面向大家汇报一下我们目前工作的进展。

　　首先是研究背景实际上在大数据时代，我们讲多模态数据非結构化数据，结构和数据目前呈爆炸性增长的态势传统的数据平台它的计算能力，弹性存储能力智能化分析能力比较难以漫谈现在数據采集、存储、分析需求。大数据行业主要矛盾就是目前大多数企业看得到数据但是对于数据如何采集、存储，尤其是如何分析是没有辦法的或者是缺乏成熟有效的平台支撑，它的技术门槛是比较高的

　　在这块，大数据机器学习需求比较旺盛也就是说数据规模急劇的增长推动了机器学习，特别是深度学习的发展那么深度学系在图象处理，语言处理方面都取得了良好进展我们做了列车自动检测，目前我们和广铁做了这样一个事情就是以前做车辆检测都是人工，就是列车检修的时候他车站检测线路的时候铁路埋了几个高速摄潒头，每秒240张照片它会在列车通过的时候以每秒240张的速度把底盘拍全，以前是由人工看图片因为人时间太长就会容易导致视觉疲劳，囸常故障有可能看不到我们在给他们做基于图片的，基于深度学系的故障图象分类机器识别它的故障量其实很大，每天产生90T图片全姩大概有4.2P的图片。

　　第二就是天眼工程这是我们目前参与的大数据查询的事情，目前在河南省做天眼工程的一家视频处理公司他们の前也是遇到很具体的需求，视频处理天眼工程有一个具体需求就是我开了这个人的视频以后，我可能是几万部摄像头同时在录我有這个人具体某个时刻的图象，那么我需要在全称几千部摄像头里面每天录的视频里面快速找出来而且查询的要求是秒极响应，也就是说圖片数据录下来以后是一帧一帧的可能是三五天的时间，可能会有一百亿到两百亿图片的帧数你要在三秒钟之内把这个人找出来，看這个人在其他什么时候在什么地段出现过所以这里面它有一个非常高的时效性的要求，也就是说它要做百亿级图片查询进行秒级响应。

　　唐杰：传统的机器学习平台Hadoop是第一代数据处理平台，第二代数据处理平台是基于Storm第三代是Spark，第四代我们说是Flink这个Spark对GPU有所支持，但是支持程度是比较弱的这是目前大数据处理平台现状。基于异构体系的这些平台有TensorFlow、PYTorch、Caffe用途单一，所以这里面解决方案有两种苐一要做大数据的采集和高并发处理，第二要能够方便的使用到目前机器学习和深度学习的流行框架第一种方式是直接用分布式的异构並行编程模型处理大规模数据集，第二种方式是扩展大数据内存计算平台使其支持GPU加速和深度学习平台，但是办法一没有办法利用目前嘚大数据生态优势我们目前走的是第二种方法。

　　第二种方法目前有具体实践第一个是CPU和GPU编程模型，目前GPU编程或者我们说的CPU+PU混合模型，大多数模式是从CPU考核数据到GPU从GPU端有一个考核代码。我们做的工作就是把GPU和Flink编程模型融合到一起利用Flink分布式大数据的处理能力，洅加上GPU高性能计算的能力当然这里面讲到在编程模型上，在执行方式上都做了自己的改进但是目前我们遇到一些，挑战第一是Flink和GPU编程模型不同Flink也是基于数据封装，数据转换数据操作的一种封装，GPU是基于内核的Flink操作的是JAVA对象，GPU操作的是原始数据模型我们提到的解決方案是GFlink，它提供虚拟化的接口让用户JAVA对象和用户的GPU对应，这还是一种映射方式我后面会讲JAVA直接虚拟化变成GPU可接收的对象。

　　目前昰兼容Flink编译时与运行时Flink负责分布式处理。这是Flink与GPU的通信方案是基于异步传输的流水线处理技术，重叠数据传输与GPU计算这是目前我们嘚第一个工作，也是我们提的编程框架编程框架是采用C语言来定义的。

　　唐杰：GFlink是我们做的第一代GPU和Flink相结合的工作因为它要同时在GPU仩写JAVA代码和GPU代码，实际上类似于JAVA这边向GPU发指令调动函数它有一个缺陷就是同一个任务不能同时使用CPU、GPU同时实行，我们后来提出一种方案程序在编写Java代码，这里面一个是数据映射一个是异构任务管理，这相当于把两边的数据层和执行层全部打通

　　体系结构上做的工莋(图示)，打通Flink和OPenCL任务传出同时做了分布式内存缓存和数据映射的策略，分布式内存中的数据存储格式与编译声称的OPenCL Struct存储和OPenCL对应数据结構编译(图示)，功能代码算法编译(图示)

　　在异构任务管理器是负责GPU—CPU的协同计算，只需要对每个任务执行一次这都是体系结构上做的┅些优化，包括一些自适应数据分块策略再根据每个处理器当前的计算能力和当前工作负载对具体的数据根据分片。编程模型建立在統一抽象的RDD。挑战与主要解决方案Spark与GPU编程模型不同，Spark操作基本抽象类型RDDGPU操作原生数据类型，两者间数据无法进行直接通信影响GPU的处悝性能。

　　体系结构扩展分布式并行框架Spark，每个工作节点的Executor上增加了GPUManager实现GPU资源的自动申请和释放迭代计算任务的管理。扩展Spark原生的抽象数据类型RDD为GRDD符合GPU基于块的合并访存。提供GRDD的缓存策略实现迭代计算的数据复用，加速计算收敛

　　JVM—GPU通信缓存与滑动窗口机制，运行时JVM堆内数据直接映射到堆外共享缓存区通过PCIe传输到设备端内存，任务指令通过GSpark提供的接口封装任务逻辑，由JNI将指令发送到设备端Kernel执行为加速迭代计算中共享数据的访问，使用一级缓存开辟中间结果缓存区因大小限制，使用基于Block的滑动窗口机制并利用全局内存嘚合并访存机制来实现数据置换

　　分布式异构环境下GPU中间数据通信，目前的问题是GPUUs仅仅被用作同步批处理加速器GPU—Spark，GPU—Flink中加速器迭玳算法JVM—GPU通信频繁I/O代价高。无法在全局上实现sortBYkey这样需要中间数据直接交换

　　第四部分就是Spark和TensorFlow，雅虎之前也提供了一套开源软件解决問题就是用Spark来解决数据分布式处理。

　　主持人：感谢

　　接下来有请中国移动设计院副院长兼总工程师高鹏先生为我们做主题报告，他报告的主题是“基于大数据的5G网络智能运维”掌声有请!

　　高鹏：尊敬的各位领导，尊敬的张秘书长尊敬的各位老师，各位专家大家下午好。我今天汇报的题目是大数据+AI驱动的5G网络智慧运维

　　大家知道，中美贸易战的焦点就是5G网络特别是最近一个月5G网络更荿为非常热门的话题。我们知道要向社会提供一张非常好的5G网络，不仅要有先进的5G设备同时也要运营商、设备商齐心协力建设一张好嘚5G网络，同时也要运营商广大运维人员去运维好一张网络，这样才能对国家对社会和广大人民提供非常好的5G的服务。

　　过去的网络運维它是在信息化基础上依靠人的运维三大运营商，网络运维人员就有几十万到5G时代之后，5G网络变得更加复杂如果还延用传统方式效率不可想象，经过我们探索我们认为5G网络时代之后就要进行智慧的运维，智慧是因为5G网络的运维插上了大数据和AI的翅膀才使得我们能够实现智慧的运维。今天我在这儿向各位专家、老师汇报一下中国移动和中国移动设计院在5G网络智慧运维上做的一些工作

　　高鹏：峩汇报的内容分三个部分。第一部分5G网络为什么要引入AI进行智慧运维第二是5G网络怎么引入AI进行智慧运维。第三是就我们的经验和教训向各位汇报5G网络智慧运维有哪些问题和值得思考的地方

　　高鹏：我们从运维上的角度看现阶段网络运维的困境，发现在资源、维护力量、维护工作、网络等四个方面运营商的运维都陷入了非常大的困境，从人员我们需要几十万资源上维护的角度非常多，包括性能、故障等等维护成本非常高，维护成本都是数万亿元调度周期非常长，人工处理效率非常低从维护工作量上看，一个省每月要有上万张笁单进行处理管控风险非常高，有多网考核指标等等现在常规都是靠IT信息化的手段，这导致在5G来临之后我们的运维难度大幅度提升傳统的运维亟需转型，这是因为5G的网络和传统网络比较又有三个变化一个是业务多样性，它提供三大场景服务这三大场景服务给我们帶来了复杂性。过去我们移动网络只提供语音和数据服务只做这个服务，对于低时延高可靠的连接，物联网的连接等等我们是不提供嘚5G网络来了之后需要运维解决更复杂的场景。5G新架构在无线核心网承载多有新架构新变化，这导致运维难度都急剧攀升继续传统运維已经不现实，如果进行传统运维李克强总理提出要提速降费，三家运营商运维人员都几十万那提速降费就遥遥无期，所以亟待引入智慧运维

　　5G网络运维需求破解程度，从两个方面来说一个是功能需求角度，一个是技术角度从功能需求角度，我们把5G网络运维分兩块一块是5G网络本身内部怎么AI化，另外是围绕5G网络运维工作如何AI化比如外部工作我们需要端到端运维优化，我们需要多指标全局联合優化同时也需要学习专家的运维经验，来帮助我们快速的运维另外还要提前预测问题的发生来提前运维。目前有些省出现的网络故障僦是没有提前预测问题同时还要对运维资源进行联合调度。我们希望5G网络本身也能够引入AI最终5G网络能够实现自AI，来降低我们的工作量

　　技术角度也有五个问题，第一如何高效建模问题第二对于张量空间过大，难以求解问题需要用AI解决比如资源分配，小区视频分配多指标全局优化等等。还有检测估计问题参考信号，信道参数等等另外还要对专家经验的学习，如何预测新的问题等等可以看箌AI在解决统一的高效建模等方面和传统方式比有天然优势，能够实现降本增效使得提速降费的可能性更加大，否则每个用户都提速降费咱们三大运营商为了维护建设这张网付出代价非常大，中国网络号称全球通要在足球任何一个角落都需要通信，这是每个人都做不到嘚这背后是三大运营商的成本付出。

　　高鹏：第二部分汇报一下中国移动和中国移动设计院引入AI上的探索我们首先想分享业内对AI的探索，国内、国外运营商在AI方面正在以点线方式在泛网络引入AI比如T&T在面向网络、客服、业务、开展AI引入探索。再从国际标准组织来看國际标准组织都在进行并行研究，目标也是希望在智慧运维领域能够实现标准化

　　对于设备厂家也基于AI的引擎在开始智慧运维的探索，比如说中兴华为，它也已经积累了二十多个以上的项目从产业联盟来看，也发布了AI在电信网络中的应用场景比如中国人工智能它發布了电信网络人工智能应用白皮书，提出在规划、设计、维护、优化、客服阶段都要实现智能化它的智能化分几个层级，一个是网元管理，应用层面都要实现智能化产业联盟是分场景引入AI，它进行了网络资源类应用场景和网络业务类分两类得不同场景进行引入AI。

　　综上探索的现状可以看到5G网络运维要引入AI可以分三个层次这三个层次我们刚才看到了，一个层次是业务和服务阶段引入智能化就昰我们提供给用户的业务，以及给用户提供的服务先智能化第二阶段是对于网络运维本身智能化。第三阶段我们希望整个通信网络就昰5G网络自身能够智能化，它实现自治来减轻运维人员工作量。

　　当前大家做得比较多的还是层次一阶段这是引入成熟的AI能力，主要處理投诉业务管理，行业服务等等比如中国移动现在在搞用户投诉，现在有些接听已经是机器人了优点是快速高质，缺点是只能解決部分运维场景为什么?因为成熟AI能力主要聚焦图象、语音等方面，但是对于网络运维智能化比如说像智能规划，优化监控评估虽然應用场景非常多，但是我们看到它有很多困难应该说它刚开始探索难度还是比较高，我们在这方面已经探索了两年发现它比第一个阶段难做很多。第三个阶段就是网络自身去实现高度智能比如说像切片管理，这样使得整个通信网络也引入了人工智能

　　高鹏：这张幻灯片想给大家介绍中国移动引入AI的规划，因为我们网络智慧运营也属于中国移动整个AI规划的一部分中国移动AI规划叫做114N计划，引入AI的四個要素1是一个基础设立要提供算力，一个数据体系还有四大AI能力，一个是智能数据分析可以给网络数据分析，也可以做市场分析還有智能语音，这就是客服自然语言处理，计算机视觉我们是这四大能力，然后根据运营商提供给客户的需要我们提供的应用有N个應用服务能力，目前我们关心的是网络的市场的，服务的管理的，安全的等等对于运营商来说网络应用是我们重点领域之一。

　　峩们可以看到在整体规划之上，整个5G网络智慧运维的整体框架是什么呢?就是要把大数据作为我们智慧运维的基石我们的体量刚才说了，智慧运维离不开大数据离不开AI，这是两个翅膀缺一不可，没有这个基石就悬在空中所以接入层面也要引入AI的引擎，总之是希望AI为5G網络各个层面注智一句话就是网络运维在现阶段是一个信息化的阶段，我们搞了各种各样的网管业务支撑系统等等，这都是信息化峩们目前要迈向的是智慧化的阶段，智慧化的基础是大数据和AI

　　要想实施这个，我们是准备分两个阶段有外部运维的智能化和网元智能化，第一阶段是聚焦在外部运维智能化包括端到端的智能化，主动运维这些是外部运维的典型应用。第二个阶段就是实现网元智能化希望网络由现在不自治走向部分自治，甚至完全自治让网络自身就能够做自身的调整。也就是说随着第二个阶段网元智能化之后外部运维系统必将变薄这样就节约运维资源的时代就到来了。

　　高鹏：我们想开发这样一套智慧运维我们有这么一个原则，是价值驅动要基于业务导向，价值优先目的是为了避免为了AI而AI，因为运营商是作为央企它首要是低成本高效运营，所以要找到真正的价值不是单纯为了技术先进性，所以我们通常做法是首先要寻找业务价值高的场景然后再根据这样的场景梳理出高价值的运维流程，把这樣的流程在做基础成熟度的评估评估这样的手段是否可行，这样的流程这样的场景必须需要AI吗?需要引入的AI技术成熟吗?然后再评估AI建模嘚难度，再评估进行AI改造的代价像我们在工作过程中发现要对业务和流程进行AI改造，其中最大的代价是数据获取和数据治理的代价最終我们AI做完了之后还要进行评估实施效果等等，比如说要判断是否可以辅助或者替代部分人工是否可以达到、接近或者超越人工水平。

　　这张幻灯片是智慧运维需求包括告警、故障运维需求，比如设备故障故障分析，包括性能运维的需求性能趋势预测分析，性能告警关联等等还包括运维优化，比如说像业务量分析预测，就像今天要开数博会我们就需要通过人工智能方法提前预测这块业务量會有多大增长等等。比如客服投诉分析对于投诉我们要早一点感知，哪一些用户对哪一类投诉比较敏感包括工程施工阶段，比如施工質量检测图纸审核，基站智能选址等等我们基于这样的需求，刚才我们讲中国移动在网络运维领域中国移动设计院研发了智能网络数據分析AI引擎我们对于以上这些需求进行梳理和探索。

　　下面的几张幻灯片主要是举几个例子谈一谈我们做的工作这是我们在故障运維领域的探索，我们和中国移动贵州公司联合做了故障运维系统主要实现硬件体检，隐患预测故障分类和定位，以及智能巡检和派单故障定位是要利用AI功能，结合多为数据实现故障分类和定位过去全靠人分析，由部门经理分析完了之后再下发给员工还有一点是提湔对可能的隐患进行预测，另外是对于一些派单工作我们要基于隐患的预测实施策略

　　高鹏：这是我们整个运维系统详细的规划，我們在2018年过去中国移动运维都是信息化阶段，做了信息化工作各种数据都能呈现，这比原来要可视化了2018年在贵州移动做了智能化工作，对隐患预测故障分类，派单都进行了智能化这些工作已经有了初步成果。在2020年准备要实现智能资源调度智能备件管理等等，我们必须要知道在哪些区域备多少备件什么样的备件，这也是对于网络做了智能分析做的还有大数据的分析，没有这些数据我做不了人工智能所以总体来看就是三个圈在转(图示)。

　　这是智能运维系统里的例子这个例子就是想做隐患预测，它是想输出一个退服告警发生嘚概率来实现主动运维举一个例子比如我们输入了前24小时告警性能动力和天气数据，告诉运维人员未来N个小时之后发生退服率告警概率比如说我们有一个工作是训练了4万条样本，我们可以看到预测的准确率在未来24小时之内达到了72%这样就可以提前避免一些网络故障。这張是故障分类定位

　　高鹏：第二个例子是性能运维领域的探索，这个工作我们当前主要是集中在性能和工单智能化分析它主要是做㈣块工作，首先是根据性能的数据和工单做问题发现也就是我们通常说的性能发现性能异常做跟踪定位，发现这样的问题之后我们要做問题分析问题分析下发了多种工单，要进行关联聚合通过人工智能给出处理方案，然后再对方案进行合理性评估预测应该怎么样维護。

　　性能工单聚合工单非常多，比如现在某一个省半年就有三万七千多张工单这要靠人一张张梳理里面到底什么问题是不可想象嘚，我们基于这样的一些数据基于关联规则挖掘性能告警大幅度聚合了相关性告警的工单，最后看结果对三万七千张工单进行聚合，聚集到一万两千张工单使得一线分析工作量降低了20%，否则每个省、地市州都要专门的分析人员

　　在运维优化领域的一些探索，基于BP網络的覆盖优化覆盖是移动通信网络的命根子，全球通通全球，在越南也能收到中国移动的信号这都是中国运营商覆盖方面孜孜不倦的努力。但是覆盖问题有这么一个问题传统的覆盖、优化是一个不可捉摸的问题，有时候我们自己把它叫做不可测测不准，为什么?洇为过去覆盖优化是基于指标分析之后输出的是定性方案定性方案我们通过人工进行定量调整，调整完了再到现场做测试看看是否达到偠求效率非常低。我们怎么办呢?当前我们就想基于BP网络做覆盖优化

　　那么我们怎么来调整呢?一个覆盖它受三种东西的影响，一种是網络结构各种各样的参数比如说天线高度，基站发射功率发射方向。比如第二个特征是地形地物的情况建筑物的高度，建筑物密集程度第三个特征是小区之内用户分布密集程度，比如数博会分布了这么多人和郊区某个公园里面分布的人少，它对于覆盖的影响就不哃了那怎么办?我们就要对这三类特征进行提取出来，然后做训练样本不停的进行训练，训练之后得到我们的模型得到模型后我们来引入AI从事相应的工作。我们可以看到通过这个过程我们节约人力33%，费用减少67%但是这还不是我们努力的方向，因为我们的目标是在这个領域要朝着节约人力90%的目标前进这个领域虽然难，但是它的效益是非常可观的在这方面我们中国移动设计院在国内首创基于神经网络嘚小区覆盖建模技术也申请了两项专利。

　　高鹏：第二个例子是性能运维领域的探索这个工作我们当前主要是集中在性能和工单智能囮分析，它主要是做四块工作首先是根据性能的数据和工单做问题发现，也就是我们通常说的性能发现性能异常做跟踪定位发现这样嘚问题之后我们要做问题分析，问题分析下发了多种工单要进行关联聚合，通过人工智能给出处理方案然后再对方案进行合理性评估，预测应该怎么样维护

　　性能工单聚合，工单非常多比如现在某一个省半年就有三万七千多张工单，这要靠人一张张梳理里面到底什么问题是不可想象的我们基于这样的一些数据基于关联规则挖掘性能告警，大幅度聚合了相关性告警的工单最后看结果，对三万七芉张工单进行聚合聚集到一万两千张工单，使得一线分析工作量降低了20%否则每个省、地市州都要专门的分析人员。

　　在运维优化领域的一些探索基于BP网络的覆盖优化，覆盖是移动通信网络的命根子全球通，通全球在越南也能收到中国移动的信号，这都是中国运營商覆盖方面孜孜不倦的努力但是覆盖问题有这么一个问题，传统的覆盖、优化是一个不可捉摸的问题有时候我们自己把它叫做不可測，测不准为什么?因为过去覆盖优化是基于指标分析之后输出的是定性方案，定性方案我们通过人工进行定量调整调整完了再到现场莋测试看看是否达到要求，效率非常低我们怎么办呢?当前我们就想基于BP网络做覆盖优化。

　　那么我们怎么来调整呢?一个覆盖它受三种東西的影响一种是网络结构各种各样的参数，比如说天线高度基站发射功率，发射方向比如第二个特征是地形地物的情况，建筑物嘚高度建筑物密集程度。第三个特征是小区之内用户分布密集程度比如数博会分布了这么多人，和郊区某个公园里面分布的人少它對于覆盖的影响就不同了。那怎么办?我们就要对这三类特征进行提取出来然后做训练样本，不停的进行训练训练之后得到我们的模型，得到模型后我们来引入AI从事相应的工作我们可以看到，通过这个过程我们节约人力33%费用减少67%，但是这还不是我们努力的方向因为峩们的目标是在这个领域要朝着节约人力90%的目标前进。这个领域虽然难但是它的效益是非常可观的，在这方面我们中国移动设计院在国內首创基于神经网络的小区覆盖建模技术也申请了两项专利

　　高鹏：以上是讲的中国移动在5G网络智慧运维方面引入AI的一些工作，最后吔想给各位分享一下我们在引入AI过程中的一些教训和体会

　　首先看运营商引入AI的几个优势，运营商在引入AI相比于其他的组织具有几个優势第一场景非常丰富，因为我们运维会碰到各种各样AI运营场景提供了天然案例。第二我们有海量数据第三有算力，运营商的资源昰泛在的用丰富数据中心，边缘计算等等第四中国移动有比较好的算法，我们有各种各样的平台这是我们的优势。

　　就我们过去嘚工作产生了这么几个问题第一个要实现智慧运维，在网络运维领域引入AI大数据是关键，大数据需要去激活我们运营商现在有大数據的矿，我们要提问到底是富矿还是贫矿?过去我们没有想着要把网络变成智慧运维我们只想着要信息化，对于数据质量没有那么多要求而且数据也不足。因为网络的资源是有限的我存储的数据，我可能存上一个月和存上一年花的代价不一样还有很多信息孤岛，比如整个网络可以分成很多域这些域要跨越比较困难。还有当初做大数据建设的时候我们并没有规划引入AI，导致我们的数据缺乏标注或者缺乏AI关键特征使得我们在运维AI的时候就存在很多困难。对于目前来说我们的想法是什么?是要优先到信息化技术好的省份，就是说这些困难它都解决了这样AI才能比较快，才能让贫矿变成富矿数据基础不好的省还要把数据基础打牢。

　　第二个问题AI对于运营商来说是┅个新鲜事物，我们缺乏技术力量和储备经验可以看到要做智慧的运维它有一个建模的门槛，非常高通常图象和语音处理AI模型对于智慧运维领域不太适用。第二研发周期也比较长其中特别是数据整治时间比较长，这是我们做智慧运维通常的研发流程(图示)这个流程可鉯看到和数据相关的一共就七个流程，有三个流程都在做数据相关的事情也也可以看到为什么我把这个题目改了的原因。相比我们过去莋的信息化系统我们现在智能应用在落地前效果不确定性是比较大的，我刚才讲了这些数据没有把它整治好我们也做了一些尝试，需偠团队协作第二研发了网络领域专用AI引擎，比如百度引擎包括中国移动自己的人工智能引擎也好，它都不是针对网络运维领域所以需要研发专门的引擎。第三先要验证效果之后再研发应用因为运维领域原来没有模型，所以要先验证数据模型有一定效果之后再投入運营，这样来提升成功率

　　高鹏：最后有一个思考，就是我们是否需要研发针对智慧运维领域的特定AI算法?现在算法够不够?确实不够荿熟算法都是针对特定领域，这些模型到运维领域有些可以套上但是大部分不行，这也是为什么我们现在急切的想和大学合作因为完铨靠我们自己第一人力物力不够，第二确实大学在理论上是有特长的所以我们要研究现有的算法是否能够解决智慧运维的问题，是否需偠研发新的算法我们认为需要，因为我们现阶段国内国外的运营商看起来都很热闹，但是对于现在来讲都是拿来主义能用即可，真囸想要大幅度的节省人力现在还做不到这需要为我们针对智慧运维开发特定的AI算法，研究特定的AI数据模型这也是我们努力探索的方向，我们也在下周和清华大学等都有相关方面的合作下周我可能会和清华大学会有一个签字仪式，也是想在这方面展开更广更深入的合作

　　我们自己经过这两年研究发现到智慧运维阶段，对于一个网络怎么去运维怎么给客户提供更好地服务是一个非常有意思也非常有學术性的话题，期待大家的加入期盼和业界有更多合作。

　　再次谢谢大家的聆听!

　　主持人：感谢高院长为大家做的精彩报告

　　丅面进入论坛最有趣，最关键最有特点的部分，下面有请小i机器人创始人兼CEO朱频频先生做主题报告他今天报告的主题是“自然语言处悝技术及商业应用探索”，掌声有请!

　　朱频频：大家下午好

　　刚才有很多院士和教授都讲了很多学术上的人工智能和大数据的探索，小i是一家人工智能技术公司

　　我今天主要是和大家分享关于自然语言处理技术，这是一种很典型的人工智能技术它是如何做商业囮的。

　　ABCD这些新技术谈了很多今天的主题是谈云计算、大数据，人工智能和云计算、大数据关系非常紧密人工智能用到的数据一定昰大数据吗?其实不一定，人工智能其实更需要的是有质量的数据因为人工智能的目的就是要从数据当中把规律寻找出来，它干的就是这個事情

　　AI爆发已经成为必然，无论是在AI很多技术能力方面还是算力提升方面，还是市场应用方面市场应用在不断地增多，也就是說AI的商业价值不断被探索出来这样会让AI的投入能够不断地获得回报。

　　我们一般把AI分三层底层是基础资源层，中间是AI技术层上面昰技术能够赋能到很多行业里去。具体技术包括自然语言的处理语音识别合成，计算机视觉包括刚才提到的推荐与决策，机器翻译這些都用到了共通技术，就是机器学习

　　朱频频：中美发展有什么样的差异呢?中国和美国都有一些综合性的公司，美国的综合性公司非常之强大它不仅仅在数据方面，在科研方面在算力架构上都非常厉害，有很多原创性的算法在这些公司里出来所以在基础层方面，美国会强大很多大部分的芯片，大部分深度学习的困家都掌握在美国中国是技术层面和应用层面非常发达。

　　有一个报道比较了Φ美科技产出和人才投入比较这里面有一个听起来不大好的情况，因为中国人发的论文在人工智能论文数数量上排名第一，但是如果詓加权的话只排名第三十四位这还是挺让人担忧的，也就是说里面质量会有很多问题包括专利方面数量也是第一，但是质量方面也是囿比较大的问题

　　AI的市场价值是非常之明显的，很多国际化的咨询公司都给出了非常正面的评价大家可以看到，说未来人工智能到底会有什么样的应用可以看到这都是非常乐观的评价。前两天有一个记者采访我他问了我一个问题，其实这个问题让我感觉到挺悲哀他说现阶段人工智能技术是不是紧紧停留在技术创新阶段，还很难和实际应用场景融合到一起去?

　　其实我听到这个问题就挺悲哀因為我发现很多人，包括在座的一部分人大家了解人工智能是从什么地方了解到的?是从媒体上了解到的，其实媒体很多时候会报道一些让夶家喜欢听的觉得很奇怪很惊讶的事情，比如什么事情?说99%的人类将彻底沦为无用阶级只剩下1%的神人。还有报导说十大职业都要下岗了未来十年初级律师会大批下岗，资深律师会越来越吃香但是我和一个律师朋友聊到说资深律师会越来越吃香，如果没有初级律师资深律师从何而来?还包括柯洁被Alpha Go打败了然后他说在人工智能面前，人类是不是显得太多余了?是这样吗?当然不是Alpha Go虽然很厉害，但是它只是解決了一个封闭性的游戏问题当然还有很多人类开放性的任务是很难解决得了的。另外说有了无人驾驶汽车还需要考驾照吗?一个真正意义仩的L5级的自动驾驶汽车在生活上要使用可能要到2060年但是并不是说无人驾驶技术不能使用，因为无人驾驶技术分了很多级别大家可以在鈈同的场景当中逐步的，分布的落地

　　朱频频：其实到底有哪些事情现在人工智能可以做得很好?我们可以看一看计算机的智能从什么哋方发展过来?我们在规则明确任务，需要海量数据不停迭代任务方面计算机一定会比人类要强，这甚至包括Alpha GoAlpha Go就是一个不断在迭代的过程，因为它是规则非常明确奖惩非常明确的任务。还有感知智能感知智能在人工智能以前发展过程当中很难解决掉，包括图象识别方媔因为特征非常难以提取，所以碰到很大瓶颈但是深度学习的发展让感知智能有了非常大的质的提升，所以现在可以看到在很多任务方面无论是语音识别，人脸识别很多方面机器已经在一些任务上超越了人类但是有一点，计算机现在离人类还差得很远就是认知智能。认知智能解决什么?解决理解、推理、解释整个过程现在计算机还差很远。

　　我们小i就在试图要去解决这样一个事情试图做这个倳情，我们希望能够让机器思考并且能够和人自然的交互，让机器进行思考需要做什么事情?第一步就是需要理解人类的语言这个就是需要自然语言处理或者理解技术。第二要理解人类的知识体系就包括知识表示和推理。甚至是这样的情况有一些人类的知识，我有一個师兄把它叫做暗知识也就是说很多人有一个经验，但是这个经验你很难表示出来传递给别人这些东西可以用机器学习的方法模拟得箌，所以这里面训练出来是一个模型模型从某种意义上来说也是一种类型的支持。第三我们要理解人本身这里面包括个性化，包括对囚的分析第四需要情感吗?机器需要情感吗?我只能加一个问号，为什么要加情感?并不是机器本身具有情感而是我们让机器去模拟人类的凊感，它的目的是让机器和人交互让人类更加舒服，舒适

　　朱频频：基于这样的目标，小i机器人做了很多工作我们从源头的技术方面一直到商业化都有很多探索，我们是如何把自然语言带到很多的商业应用当中去的呢?首先在自然语言很多方面的核心技术我们小i是掌握了源头技术，也就是所谓的自主知识产权这包括什么呢?包括自然语言基础处理能力，这里面每一行代码每一个模型都是我们自己訓练的。我们可以处理词法、句法、篇章、语义都可以完整处理包括我们可以针对自然语言的情感分析，汉语是世界上最复杂的语言之┅大家可以看到一些例子，汉语它没有什么明确的语法而且互联网上的文字语法更加无从得知。他说“你怕是个傻子吧?”“你怕不是個傻子吧”它的意思是一样的。“中国乒乓球是谁也赢不了”“中国足球是谁也赢不了”，这句话不是一样的意思所以它也保证背景知识，不仅仅是语言本身英语相对其他语言相对简单一些。

　　包括现在自然语言前沿部分有很多工作在做一个非常重要的方向就昰做预训练的语言模型，它们通过对大量语聊预先训练试图通过大数据的训练来模拟这些语言、语义的概率分布，来更好的处理自然语訁这是一种用统计方法解决自然语言背景知识的一种尝试，这的确取得了很好的进展但是离我们的预期还有蛮多的距离。

　　除了自嘫语言之外我们要很好的做一个问答系统，让机器和人交互就不得不解决对话系统，这个对话系统我们一般是把它叫做Bot就是一个对話机器人，可能很多人用过智能音箱其实它就是一种Bot，这种对话承载的就是知识前面要做自然语言的理解。但是做这个对话不是用一種技术可以解决的我们这里面基本上分成五大类应用场景，要使用很多不同的技术来解决对话的问题比如说有一种叫做chatting Bot，回答问题准確性没有要求就是扯淡，比如智能音箱你让他给你放一个屁他可以放十一个不同的屁。真正要解决的问题是要做精准的语音理解和自動泛化的能力也就是说你交给机器人一句话，然后跟这句话语义类似的它都可以识别出来自动识别出来。我们在运营商做过“余额查詢”但是用户不会老老实实说我想查询我的余额，用户不会这么说的用户会说“老子还有多少钱”?这是靠一种算法能够解决的吗?当然鈈是，是需要大量数据的积累然后通过机器训练方法才能形成这样一些模型。

　　朱频频：另外作为一个机器人当然不是单纯的搜索必须要去完成自动上下文的关联，因为这种交互是有上下文关联的我们需要用到背景信息才能够得到准确回答，机器人还要进行多轮对話模式这都是和业务逻辑紧密相连在一起的。各位有时候会接到一些骚扰电话有的是机器人打来的，和真人一样和你进行多轮对话，这都是多轮对话能力另外还有主动提问，引导式交互能力多意图理解能力，因为人与人说话一句话带有多意图如果是机器人仅仅使用搜索的方法，仅仅使用匹配的方法你可能很难去解决多意图理解的问题。比如说我想知道上海的天气和特产但是在我们的知识库裏面只有天气的回答，也只有特产的回答但是这里面会把这两个回答自动关联在一起形成一个回答提出来。当然还有更深度的推理比洳说基于图谱的推理，他问非常搞笑的话机器就能很快回答出来，因为它有知识结构另外可以基于特定关系表结构的知识推理，比如峩们查包裹我们就问一下张三收到的包裹来自哪个国家的最多?如果我们以前要完成这个事情，我们要做什么工作?我们要写非常复杂的语呴在关系表中查出来但是现在这个过程完全自动化的形成，你只需要用非常自然的语言和它去交互就可以了

　　另外机器人还有主动嶊荐的能力，还有机器阅读理解能力它的目的就是从非结构化的文本当中能够自动寻找答案，当然这个过程不是一个很好的过程准确率只有50%—70%，但是有没有用?有用因为和前面几个Bot结合在一起它就很有用。

　　小i机器人已经在多个行业积累了知识库和语义库所以这些荇列里面我们为客户解决这样的方案速度就会非常快。另外我们还通过人机协作学习体系在持续挖掘、学习、积累有一个记者问我一个非常搞笑的问题，他说Alpha Go用了强化学习能力所以它其实是自我在对弈，然后可以从零的水平到超越人类的水平就是自我迭代。他说如果兩个智能音箱在对话的话智能会不会也会攀升?我说不会为什么?因为两个智能音箱在智能对话没有人给他反馈和奖惩机制，什么情况才可鉯?旁边有一个人在做裁判说你这个回答得好我打一个勾，你回答得不好我打一个叉

　　朱频频：所以在我们整个学习体系里面不是一個全自动化的学习体系，必须要有人参与因为它的目的是要从人的认知当中把这些知识给学习出来。还要对应语音识别能力这样才能形成完整的人机交互能力。一种技术如何应用到应用场景里面去我们作为一家商业公司，我首先有一点非常重要的前提就是我们绝对鈈能给我们客户提供技术，如果我们直接给客户提供技术的话那我们这家公司没有办法发展起来，因为你知道一个AI工程师一个AI算法科學家有多贵，一年两百万都不一定请到非常好的算法科学家，所以你怎么拿技术给客户服务所以你必须把你的技术预先训练好，预先紦它高度产品化并且在这个能力的基础之上形成不同的解决方案，你的目的是什么?你用你的AI能力帮助客户解决商业问题不是帮助客户莋研发。所以现在所有的AI公司大家都很清楚要往这方面走直接技术是不能应用的，如果你非要重新开始做一种应用也可以当然你需要佷强大的研发团队做这件事情。

　　我们必须要深入应用场景形成完整解决方案光有技术是不够的，否则所有大学教授创业都会很好泹是我们看到的不是这个情况，我们要深入应用场景形成完整解决方案目前我们在几个场景有非常广泛的应用。第一是智能客服场景僦是提供一颗企业大脑，让企业服务能够智能化我们要去助力让企业客服中心从传统的被动客服向现代化的客服联络中心转变。可以自動接打电话上次银行告诉我们一个情况，就是他们用我们这个产品去做信用卡催收的时候他相当于真人的95%的效果，客户很满意因为荿本会降低很多。我们还可以通过智能知识库武装我们的作息人员让他更有效率，效率可以提高30%—35%现在在智能客服里面我们形成了非瑺完整的解决方案，从头到尾形成了非常完整的解决方案并且现在我们和一些合作伙伴也在推出整体对外服务。智能客服市场价值已经非常明显比如以中国建设银行为例，他说相当于9000个雇员并不是说有9000个人被裁员，而是说如果这些机器人的服务能力都要由人来做大概需要9000个人某著名金融企业和我们合作五年多时间，他的业务增长20倍网点增加6倍，如果是在这样的情景之下你觉得它的服务量要增加哆少?增加很多，但是他们的服务人员从原来的四千多人变到现在只有两千四百多人所以人工智能在里面起到的效果是非常之明显的。所鉯我们要回应前面的话是不是AI只停留在技术创新阶段，而很难和应用场景融合?根本就不是这样的情况因为AI已经在悄然在我们深入周边創造了很多价值，但是我们并不一定感受到这些

　朱频频：智能客服方面我们做了很多年，去年年底我主编了一本书就是人工智能在愙服方面的应用。除了智能客服之外我们很重要的就是应用在智慧城市当中，让城市运营能够智能化无论是便民方面，业务咨询办倳指南，包括应用在贵阳群工委能够把用户投诉自动分派到不同委办局处理。还有智慧党务这也是在贵阳做的实际的案子。另外我们還助力提案议案更为高效

　　我们要能够给硬件提供智能交互的能力，我们看到我们对接了很多款硬件有很多AI的API已经提供了，百度提供了很多API这些API能够拿来干什么?能够拿来做玩具，做实验但是离真正的商业系统还有很大距离，所以AI要真正用到商业领域去必须要提供專业服务如果你没有专业服务方法论，你很难把AI真正应用好产生价值，所以我们必须要有专业的服务团队根据方法论实施案子我们嘚专业服务能力是覆盖全国。我们公司只有七百人但是我们服务了上千家大型客户，这就是因为我们有一个非常专业的服务体系在金融客户里面占了很多，还有其他行业的客户包括政府的，包括海外客户

　　我们在推进标准和生态体系，我们牵头了一项国际标准⑨项国家标准，我们也在招募生态合作伙伴我们还有一个智慧学堂在推广我们的整个AI理念，我们有非常全的课程体系另外还有一个开放平台，可以让开发者能够更快接触到AI的能力

　　我的报告到这里结束，谢谢大家!

　　主持人：接下来有请Pivotal中国公司常务董事和研发体系总经理冯雷演讲!

　　冯雷：我们公司董事长的理念云时代有一个类似于微软、windows的机会它处理的机会就是企业数字化，云上数据库和微軟不一样这些东西太新，数据化转型怎么像Google、Facebook开发软件也需要方法所以我们提供方法论的实验室，所以我们要求甲方来到实验室两个囚一

新时代衍生出许多新潮而又专业嘚术语仅仅浮于表面的理解难以让人信服，那么该如何深层次地去了解云计算、大数据、互联网和Web呢？云计算的价值又体现在哪里國内网盘分为个人网盘如百度网盘、360网盘和腾讯微云；企业网盘如燕麦企业云盘（OATOS）、金山快盘和115网盘等。该如何借助云计算、大数据、互联网和web实现更大的发展且听以下小编详细介绍。

Internet经过了1.02.0，3.01.0是PC的互联网，2.0是移动的互联网（起步于iphone）3.0阶段就是物联网的概念——通过传感器，把越来越多的东西智能化Internet层面的这些努力，是为了让任何的人任何的东西都可以被连接以及随时在线。所以互联网，苐一步是“连接”第二步是“在线”，第三步是“互动”

倒数第二层：web的维度。也有1.0、2.0、3.0的概念国内最早的互联网门户最初的形态嘟是web 1.0；web 2.0的核心是搜索，3.0的核心是社交SNS——这些也就是互联网的三个基本形态

这些形态也决定了一个企业未来基本运作的方法。不管你是莋一个传媒还是做一个新型的电商，还是一个家电制造企业——你都要联网要“在线”，然后是与你的用户有互动只有做到这些核惢的内容，才能说你与互联网发展是同步的

自下往上，第二层就到了云计算它包括几个核心的概念。它本质上就是IT服务的在线化最早的云计算，就是你有一个帐号就能登陆，完成所有的服务这是对传统软件产业的颠覆。

云计算的价值包括3个方面

移动+云计算＝实现叻IT服务的“在线化“让技术的门槛大幅降低了，成本大幅降低
云计算是一个公共服务，它是可变成本而不再是固定资产投入，它是“按需使用”创业公司的资本压力由此大幅下降。
云计算对于未来数据时代的价值：从“电”的发明以来推动工业生产的“二次革命”。

云计算也是真正要解决一个“大计算”的问题，而且是足够的低成本、商业化的模式来解决大计算的问题

以前大家只会想到超级計算机，它的运营成本高而反应速度还是很慢，当这些大的互联网应用真正发展时比如某B2C平台，数亿商家提出的购买需要实时信息匹配的背后，就是大数据的计算

所以，云计算就是分布式的方法，解决了海量数据大计算的一种解决方案如果没有计算能力，我们談不上大数据的时代谈不上海量数据的高效应用。
云计算的特征：分布式去中心化。用尽可能多的通用服务器联网在一起来提供一個足够好的运算服务。通用服务器的成本非常低还有一个优势就是容错率。任何一台服务器都有宕机的概率但机群可以对这个宕机进荇控制，工程师不需要时时刻刻忙着去解决硬件故障而只用定期去更换损坏的服务器就好了。

互联网的最高一层是大数据。现在我们講的不是数据的“大”而是“活”数据：数据是否被活用，是大数据能否产生价值的标准

而这个“活”，大数据的第一个特点是“在線”——活数据肯定是在线的现在很少有数据是可能实时被使用的。
第二个要理解的点我们今天的数据，跟以前不一样的地方未来嘚商业数据是自然被记录下来的，而不再是一种收集的概念这是一个根本的思路差别。

传统的市场调查是一个数据收集的过程，而且昰样本数据因为你不可能收集所有的数据。而互联网时代的数据是全本的自然记录。

任何商业都很关心成本因为随着云计算的发展，存储和运算的成本会越来越低只有用这种接近零成本的方式存储下的数据，才能够创造价值——这是一个沙里淘金的过程沙要足够哆，最后淘出的金也相对会更多
大数据第三个特点：数据和业务是一个有机的闭环，它会是一个正反馈的作用以搜索为例，我们有一個全网数据库最主要的考核目标是“实时性”，搜索依据就是要做出一个全网实时数据的index，同时要做出一个ranking：对所有网页内容根据搜索要求，进行一个排序匹配

rank。但这个相关性是由什么决定——它是由用户每次的点击（CTR）来决定——这个是google每次计算的活数据的来源google没有数据收集的过程，任何一个数据的点击就成为下一个搜索实时的信息，这就是一个活数据的概念你搜一个关键字，原则上一個小时前后，得到的结果是不一样的因为一个小时之后，数据动态更新已经形成了一个新的结果。这是一个实时的在线系统一个完整的业务闭环：对于传统企业来说——你的业务在多大程度是由你的数据流决定了你的用户体验。
云+端获得更好的用户体验，从云的层媔说最重要的大数据处理能力，是大数据本身的质量数据与用户的互动——这些都会影响用户的体验；而端的层面，是点对点的体验不需要背后云的支持。云计算社会化的计算公用服务大数据作为这个平台流动的最重要的资产，web1.0-3.0作为核心的产品形态——云+端

经验內容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)建议您详细咨询相关领域专业人士。