有没有,互联网技术,或者,互联网人工智能是什么技术这方面的工作我想去这地方上班工作挣钱

  在本篇文章中我将对机器學习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核当然,本文也面对一般读者不会对阅读有相关的前提要求。

  在進入正题前我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢

  我并不直接回答这个問题前。相反我想请大家看两张图,下图是图一:


 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻  

  这幅图上上的三人是当今機器学习界的执牛耳者中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人右边的是Yann LeCun, 纽约大学教授,如今是Facebook互联网人工智能是什么实验室的主任而左边的大家都很熟悉,Andrew Ng中文名吴恩达,斯坦福大学副教授如今也是“百度大脑”的负责人与百度首席科學家。这三位都是目前业界炙手可热的大牛被互联网界大鳄求贤若渴的聘请,足见他们的重要性而他们的研究方向,则全部都是机器學习的子类--深度学习

  这幅图上描述的是什么?Windows Phone上的语音助手Cortana名字来源于《光环》中士官长的助手。相比其他竞争对手微软很迟財推出这个服务。Cortana背后的核心技术是什么为什么它能够听懂人的语音?事实上这个技术正是机器学习。机器学习是所有语音助手产品(包括Apple的siri与Google的Now)能够跟人交互的关键技术

  通过上面两图,我相信大家可以看出机器学习似乎是一个很重要的有很多未知特性的技术。學习它似乎是一件有趣的任务实际上,学习机器学习不仅可以帮助我们了解互联网界最新的趋势同时也可以知道伴随我们的便利服务嘚实现技术。

  机器学习是什么为什么它能有这么大的魔力,这些问题正是本文要回答的同时,本文叫做“从机器学习谈起”因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(如数据挖掘、计算机视觉等)算法(神经网络,svm)等等本文的主要目录如下:

1.┅个故事说明什么是机器学习

  机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译在计算界Machine一般指计算机。这个名字使用叻拟人的手法说明了这门技术是让机器“学习”的技术。但是计算机是死的怎么可能像人类一样“学习”呢?

  传统上如果我们想讓计算机工作我们给它一串指令,然后它遵照这个指令一步步执行下去有因有果,非常明确但这样的方式在机器学习中行不通。机器学习根本不接受你输入的指令相反,它接受你输入的数据! 也就是说机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。这听起来非常不可思议但结果上却是非常可行的。“统计”思想将在你学习“机器学习”相关理念时无时无刻不伴随相关而不昰因果的概念将是支撑机器学习能够工作的核心概念。你会颠覆对你以前所有程序中建立的因果无处不在的根本理念

  下面我通过一個故事来简单地阐明什么是机器学习。这个故事比较适合用在知乎上作为一个概念的阐明在这里,这个故事没有展开但相关内容与核惢是存在的。如果你想简单的了解一下什么是机器学习那么看完这个故事就足够了。如果你想了解机器学习的更多知识以及与它关联紧密的当代技术那么请你继续往下看,后面有更多的丰富的内容

  这个例子来源于我真实的生活经验,我在思考这个问题的时候突然發现它的过程可以被扩充化为一个完整的机器学习的过程因此我决定使用这个例子作为所有介绍的开始。这个故事称为“等人问题”

  我相信大家都有跟别人相约,然后等人的经历现实中不是每个人都那么守时的,于是当你碰到一些爱迟到的人你的时间不可避免嘚要浪费。我就碰到过这样的一个例子

  对我的一个朋友小Y而言,他就不是那么守时最常见的表现是他经常迟到。当有一次我跟他約好3点钟在某个麦当劳见面时在我出门的那一刻我突然想到一个问题:我现在出发合适么?我会不会又到了地点后花上30分钟去等他?峩决定采取一个策略解决这个问题

  要想解决这个问题,有好几种方法第一种方法是采用知识:我搜寻能够解决这个问题的知识。泹很遗憾没有人会把如何等人这个问题作为知识传授,因此我不可能找到已有的知识能够解决这个问题第二种方法是问他人:我去询問他人获得解决这个问题的能力。但是同样的这个问题没有人能够解答,因为可能没人碰上跟我一样的情况第三种方法是准则法:我問自己的内心,我有否设立过什么准则去面对这个问题例如,无论别人如何我都会守时到达。但我不是个死板的人我没有设立过这樣的规则。

  事实上我相信有种方法比以上三种都合适。我把过往跟小Y相约的经历在脑海中重现一下看看跟他相约的次数中,迟到占了多大的比例而我利用这来预测他这次迟到的可能性。如果这个值超出了我心里的某个界限那我选择等一会再出发。假设我跟小Y约過5次他迟到的次数是1次,那么他按时到的比例为80%我心中的阈值为70%,我认为这次小Y应该不会迟到因此我按时出门。如果小Y在5次迟到的佽数中占了4次也就是他按时到达的比例为20%,由于这个值低于我的阈值因此我选择推迟出门的时间。这个方法从它的利用层面来看又稱为经验法。在经验法的思考过程中我事实上利用了以往所有相约的数据。因此也可以称之为依据数据做的判断

  依据数据所做的判断跟机器学习的思想根本上是一致的。

  刚才的思考过程我只考虑“频次”这种属性在真实的机器学习中,这可能都不算是一个应鼡一般的机器学习模型至少考虑两个量:一个是因变量,也就是我们希望预测的结果在这个例子里就是小Y迟到与否的判断。另一个是洎变量也就是用来预测小Y是否迟到的量。假设我把时间作为自变量譬如我发现小Y所有迟到的日子基本都是星期五,而在非星期五情况丅他基本不迟到于是我可以建立一个模型,来模拟小Y迟到与否跟日子是否是星期五的概率见下图:

  这样的图就是一个最简单的机器学习模型,称之为决策树

  当我们考虑的自变量只有一个时,情况较为简单如果把我们的自变量再增加一个。例如小Y迟到的部分凊况时是在他开车过来的时候(你可以理解为他开车水平较臭或者路较堵)。于是我可以关联考虑这些信息建立一个更复杂的模型,这个模型包含两个自变量与一个因变量

  再更复杂一点,小Y的迟到跟天气也有一定的原因例如下雨的时候,这时候我需要考虑三个自变量

  如果我希望能够预测小Y迟到的具体时间,我可以把他每次迟到的时间跟雨量的大小以及前面考虑的自变量统一建立一个模型于昰我的模型可以预测值,例如他大概会迟到几分钟这样可以帮助我更好的规划我出门的时间。在这样的情况下决策树就无法很好地支撐了,因为决策树只能预测离散值我们可以用节2所介绍的线型回归方法建立这个模型。

  如果我把这些建立模型的过程交给电脑比洳把所有的自变量和因变量输入,然后让计算机帮我生成一个模型同时让计算机根据我当前的情况,给出我是否需要迟出门需要迟几汾钟的建议。那么计算机执行这些辅助决策的过程就是机器学习的过程

  机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律)并利用此模型预测未来(是否迟到)的一种方法。

  通过上面的分析可以看出机器学习与人类思考的经验过程是类似的,鈈过它能考虑更多的情况执行更加复杂的计算。事实上机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对數据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题

  下面,我会开始对机器学習的正式介绍包括定义、范围,方法、应用等等都有所包含。

  从广义上来说机器学习是一种能够赋予机器学习的能力以此让它唍成直接编程无法完成的功能的方法。但从实践的意义上来说机器学习是一种通过利用数据,训练出模型然后使用模型预测的一种方法。

  让我们具体看一个例子

  拿国民话题的房子来说。现在我手里有一栋房子需要售卖我应该给它标上多大的价格?房子的面積是100平方米价格是100万,120万还是140万?

  很显然我希望获得房价与面积的某种规律。那么我该如何获得这个规律用报纸上的房价平均数据么?还是参考别人面积相似的无论哪种,似乎都并不是太靠谱

  我现在希望获得一个合理的,并且能够最大程度的反映面积與房价关系的规律于是我调查了周边与我房型类似的一些房子,获得一组数据这组数据中包含了大大小小房子的面积与价格,如果我能从这组数据中找出面积与价格的规律那么我就可以得出房子的价格。

  对规律的寻找很简单拟合出一条直线,让它“穿过”所有嘚点并且与各个点的距离尽可能的小。

  通过这条直线我获得了一个能够最佳反映房价与面积规律的规律。这条直线同时也是一个丅式所表明的函数:

  上述中的a、b都是直线的参数获得这些参数以后,我就可以计算出房子的价格

  假设a = 0.75,b = 50,则房价 = 100 * 0.75 + 50 = 125万这个结果與我前面所列的100万,120万140万都不一样。由于这条直线综合考虑了大部分的情况因此从“统计”意义上来说,这是一个最合理的预测

  在求解过程中透露出了两个信息:


  1.房价模型是根据拟合的函数类型决定的。如果是直线那么拟合出的就是直线方程。如果是其他類型的线例如抛物线,那么拟合出的就是抛物线方程机器学习有众多算法,一些强力算法可以拟合出复杂的非线性模型用来反映一些不是直线所能表达的情况。
  2.如果我的数据越多我的模型就越能够考虑到越多的情况,由此对于新情况的预测效果可能就越好这昰机器学习界“数据为王”思想的一个体现。一般来说(不是绝对)数据越多,最后机器学习生成的模型预测的效果越好

  通过我拟合矗线的过程,我们可以对机器学习过程做一个完整的回顾首先,我们需要在计算机中存储历史的数据接着,我们将这些 数据通过机器學习算法进行处理这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测这个结果一般称之为“模型”。对新数据 的预测过程在机器学习中叫做“预测”“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果“训练”产生“模型”,“模型”指导 “预测”

  让我们把机器学习的过程与人类对历史经验归纳的过程做个比对。

图5 机器学习与人類思考的类比


  人类在成长、生活过程中积累了很多的历史与经验人类定期地对这些经验进行“归纳”,获得了生活的“规律”当囚类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”对未知问题与未来进行“推测”,从而指导自己的生活和工作

  机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应我们可以发现,机器学习的思想并不复杂仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论

   这也可以联想到人类为什么要学习历史,历史实际上是人类过往经验的总结有句話说得很好,“历史往往不一样但历史总是惊人的相似”。通过学习历史我们从历史中归纳出人生与国家的规律,从而指导我们的下┅步工作这是具有莫大价值的。当代一些人忽视了历史的本来价值而是把其作为一种宣扬功绩的手段,这其实是对历史真实价值的一種误用

  上文虽然说明了机器学习是什么,但是并没有给出机器学习的范围

  其实,机器学习跟模式识别统计学习,数据挖掘计算机视觉,语音识别自然语言处理等领域有着很深的联系。

  从范围上来说机器学习跟模式识别,统计学习数据挖掘是类似嘚,同时机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科因此,一般说数据挖掘时可以等同于说机器学习。同时我们平常所说的机器学习应用,应该是通用的不仅仅局限在结构化数据,还有图像音频等应用。

  在这节对机器学习这些相关领域的介绍有助于我们理清机器学习的应用场景与研究范围更好的理解后面的算法与应用层次。

  下图昰机器学习所牵扯的一些相关范围的学科与研究领域


图6 机器学习与相关学科

  模式识别=机器学习。两者的主要区别在于前者是从工业堺发展起来的概念后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中Christopher M. Bishop在开头是这样说的“模式识别源自工业界,而机器学习来自于計算机学科不过,它们中的活动可以被视为同一个领域的两个方面同时在过去的10年间,它们都有了长足的发展”
  数据挖掘=机器學习+数据库。这几年数据挖掘的概念实在是太耳熟能详几乎等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘如何如何例如从数据中挖絀金子,以及将废弃的数据转化为价值等等但是,我尽管可能会挖出金子但我也可能挖的是“石头”啊。这个说法的意思是数据挖掘仅仅是一种思考方式,告诉我们应该尝试从数据中挖掘出知识但不是每个数据都能挖掘出金子的,所以不要神话它一个系统绝对不會因为上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的),恰恰相反一个拥有数据挖掘思维的人员才是关键,而且他还必须对数據有深刻的认识这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化


  统計学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科因为机器学习中的大多数方法来自统计学,甚至可以认为统计学嘚发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法就是源自统计学科。但是在某种程度上两者是有分别的这个分别在于:統计学习者重点关注的是统计模型的发展与优化,偏数学而机器学习者更关注的是能够解决问题,偏实践因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。
  计算机视觉=图像处理+机器学习图像处理技术用于将图像处理为适合进入机器學习模型中的输入,机器学习则负责从图像中识别出相关的模式计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌識别等等应用这个领域是应用前景非常火热的,同时也是研究的热门方向随着机器学习的新领域深度学习的发展,大大促进了计算机圖像识别的效果因此未来计算机视觉界的发展前景不可估量。
  语音识别=语音处理+机器学习语音识别就是音频处理技术与机器学习嘚结合。语音识别技术一般不会单独使用一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等
  自然语言处悝=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域在自然语言处理技术中,大量使用了编译原理相关的技术例如词法分析,语法分析等等除此之外,在理解这个层面则使用了语义理解,机器学习等技术作为唯一由人类自身创造的符號,自然语言处理一直是机器学习界不断研究的方向按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的而只囿语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解一直是工业和学术界关注的焦点。

  可以看出机器学习茬众多领域的外延和应用机器学习技术的发展促使了很多智能领域的进步,改善着我们的生活

  通过上节的介绍我们知晓了机器学習的大致范围,那么机器学习里面究竟有多少经典的算法呢在这个部分我会简要介绍一下机器学习中的经典代表方法。这部分介绍的重點是这些方法内涵的思想数学与实践细节不会在这讨论。

  在大部分机器学习课程中回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石如果不理解回归算法,无法学习那些强大的算法回归算法有两个重要的子类:即线性回归和逻辑回归。

  线性回归就是我们前面说过的房价求解问题洳何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解“最小二乘法”的思想是这样的,假设我们拟合出的直线玳表数据的真实值而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响需要求解一条直线使所有误差的平方和最小。最小②乘法将最优问题转化为求函数极值问题函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机可能求解不絀来,也可能计算量太大

  计算机科学界专门有一个学科叫“数值计算”,专门用来提升计算机进行各类计算时的准确性和效率问题例如,著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法也非常适合来处理求解函数极值的问题。梯度下降法是解决回歸模型中最简单且有效的方法之一从严格意义上来说,由于后文中的神经网络和推荐算法中都有线性回归的因子因此梯度下降法在后媔的算法实现中也有应用。

  逻辑回归是一种与线性回归非常类似的算法但是,从本质上讲线型回归处理的问题类型与逻辑回归不┅致。线性回归处理的是数值问题也就是最后预测出的结果是数字,例如房价而逻辑回归属于分类算法,也就是说逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件以及用户是否会点击此广告等等。

  实现方面的话逻辑回归只是对对线性回归嘚计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观你只需要理解对数值越大,函数越逼近1數值越小,函数越逼近0)接着我们根据这个概率可以做预测,例如概率大于0.5则这封邮件就是垃圾邮件,或者肿瘤是否是恶性的等等从矗观上来说,逻辑回归是画出了一条分类线见下图。


  图7 逻辑回归的直观解释

  假设我们有一组肿瘤患者的数据这些患者的肿瘤Φ有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小我们将这两个特征与标签映射到这个二维空间上,形成了我上图的数据

  当我有一个绿色的点时,峩该判断这个肿瘤是恶性的还是良性的呢根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线这时,根据绿点出现在分類线的左侧因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤

  逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低)这意味着当两类之间的界线不是线性时,逻辑回归的表达能仂就不足下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线

  神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法不过在90年代中途衰落。现在携着“深度学习”之势,神经网络重装归来重新成为最强大的机器學习算法之一。

  神经网络的诞生起源于对大脑工作机理的研究早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用鉮经网络进行机器学习的实验发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后神经网络嘚发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)

  具体说来,神经网络的学习机理是什么简单來说,就是分解与整合在著名的Hubel-Wiesel试验中,学者们研究猫的视觉分析机理是这样的

  比方说,一个正方形分解为四个折线进入视觉處理的下一层中。四个神经元分别处理一个折线每个折线再继续被分解为两条直线,每条直线再被分解为黑白两个面于是,一个复杂嘚图像变成了大量的细节进入神经元神经元处理以后再进行整合,最后得出了看到的是正方形的结论这就是大脑视觉识别的机理,也昰神经网络工作的机理

  让我们看一个简单的神经网络的逻辑架构。在这个网络中分成输入层,隐藏层和输出层。输入层负责接收信号隐藏层负责对数据的分解与处理,最后的结果被整合到输出层每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经え若干个处理单元组成了一个层,若干个层再组成了一个网络也就是"神经网络"。


图9 神经网络的逻辑架构


  在神经网络中每个处理單元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入把模型的预测结果作为输出传输到下一个层次。通过这样的过程神經网络可以完成非常复杂的非线性分类。

  下图会演示神经网络在图像识别领域的一个著名应用这个程序叫做LeNet,是一个基于多个隐层構建的神经网络通过LeNet可以识别多种手写数字,并且达到很高的识别精度与拥有较好的鲁棒性

  右下方的方形中显示的是输入计算机嘚图像,方形上方的红色字样“answer”后面显示的是计算机的输出左边的三条竖直的图像列显示的是神经网络中三个隐藏层的输出,可以看絀随着层次的不断深入,越深的层次处理的细节越低例如层3基本处理的都已经是线的细节了。LeNet的发明人就是前文介绍过的机器学习的夶牛Yann LeCun(图1右者)

  进入90年代,神经网络的发展进入了一个瓶颈期其主要原因是尽管有BP算法的加速,神经网络的训练过程仍然很困难因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。

  3、SVM(支持向量机)

  支持向量机算法是诞生于统计学习界同时在机器学习界夶放光彩的经典算法。

  支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术则支持向量机算法最多算是一种更好的线性分类技术。

  泹是通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线从而达成很好的的分类效果。“核”事实上就是一种特殊嘚函数最典型的特征就是可以将低维的空间映射到高维的空间。

  我们如何在二维平面划分出一个圆形的分类界线在二维平面可能會很困难,但是通过“核”可以将二维空间映射到三维空间然后使用一个线性平面就可以达成类似效果。也就是说二维平面划分出的非线性分类界线可以等价于三维平面的线性分类界线。于是我们可以通过在三维空间中进行简单的线性划分就可以达到在二维平面中的非线性划分效果。


  支持向量机是一种数学成分很浓的机器学习算法(相对的神经网络则有生物科学成分)。在算法的核心步骤中囿一步证明,即将数据从低维映射到高维不会带来最后计算复杂性的提升于是,通过支持向量机算法既可以保持计算效率,又可以获嘚非常好的分类效果因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法直到现在神经网络借著深度学习重新兴起,两者之间才又发生了微妙的平衡转变

  前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出嘚模型可以对其他未知数据预测标签在下面的算法中,训练数据都是不含标签的而算法的目的则是通过训练,推测出这些数据的标签这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)无监督算法中最典型的代表就是聚类算法。

  让我们還是拿一个二维的数据来说某一个数据包含两个特征。我希望通过聚类算法给他们中不同的种类打上标签,我该怎么做呢简单来说,聚类算法就是计算种群中的距离根据距离的远近将数据划分为多个族群。

  聚类算法中最典型的代表就是K-Means算法

  降维算法也是┅种无监督学习算法,其主要特征是将数据从高维降低到低维层次在这里,维度其实表示的是数据的特征量的大小例如,房价包含房孓的长、宽、面积与房间数量四个特征也就是维度为4维的数据。可以看出来长与宽事实上与面积表示的信息重叠了,例如面积=长 × 宽通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征即从4维的数据压缩到2维。于是我们将数据从高维降低箌低维不仅利于表示,同时在计算上也能带来加速

  刚才说的降维过程中减少的维度属于肉眼可视的层次,同时压缩也不会带来信息的损失(因为信息冗余了)如果肉眼不可视,或者没有冗余的特征降维算法也能工作,不过这样会带来一些信息的损失但是,降维算法可以从数学上证明从高维压缩到的低维中最大程度地保留了数据的信息。因此使用降维算法仍然有很多的好处。

  降维算法的主偠作用是压缩数据与提升机器学习其他算法的效率通过降维算法,可以将具有几千个特征的数据压缩至若干个特征另外,降维算法的叧一个好处是数据的可视化例如将5维的数据压缩至2维,然后可以用二维平面来可视降维算法的主要代表是PCA算法(即主成分分析算法)。

  推荐算法是目前业界非常火的一种算法在电商界,如亚马逊天猫,京东等得到了广泛的运用推荐算法的主要特征就是可以自动向鼡户推荐他们最感兴趣的东西,从而增加购买率提升效益。推荐算法有两个主要的类别:

  一类是基于物品内容的推荐是将与用户購买的内容近似的物品推荐给用户,这样的前提是每个物品都得有若干个标签因此才可以找出与用户购买物品类似的物品,这样推荐的恏处是关联程度较大但是由于每个物品都需要贴标签,因此工作量较大

  另一类是基于用户相似度的推荐,则是将与目标用户兴趣楿同的其他用户购买的东西推荐给目标用户例如小A历史上买了物品B和C,经过算法分析发现另一个与小A近似的用户小D购买了物品E,于是將物品E推荐给小A

  两类推荐都有各自的优缺点,在一般的电商应用中一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法

  除了以上算法之外,机器学习界还有其他的如高斯判别朴素贝叶斯,决策树等等算法但是上面列的六个算法是使用最多,影响最广种类最全的典型。机器学习界的一个特色就是算法众多发展百花齐放。

  下面做一个总结按照训练的数据有无标签,可鉯将上面算法分为监督学习算法和无监督学习算法但推荐算法较为特殊,既不属于监督学习也不属于非监督学习,是单独的一类

  线性回归,逻辑回归神经网络,SVM


  聚类算法降维算法

  除了这些算法以外,有一些算法的名字在机器学习领域中也经常出现泹他们本身并不算是一个机器学习算法,而是为了解决某个子问题而诞生的你可以理解他们为以上算法的子算法,用于大幅度提高训练過程其中的代表有:梯度下降法,主要运用在线型回归逻辑回归,神经网络推荐算法中;牛顿法,主要运用在线型回归中;BP算法主要运用在神经网络中;SMO算法,主要运用在SVM中

5.机器学习的应用--大数据  说完机器学习的方法,下面要谈一谈机器学习的应用了无疑,在2010年以前机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别网络攻击防范,手写字符识别等等但是,从2010年以后随著大数据概念的兴起,机器学习大量的应用都与大数据高度耦合几乎可以认为大数据是机器学习应用的最佳场景。

  譬如但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。


  百喥预测2014年世界杯从淘汰赛到决赛全部预测正确。

图14 百度世界杯成功预测了所有比赛结果

  这些实在太神奇了那么究竟是什么原因导致大数据具有这些魔力的呢?简单来说就是机器学习技术。正是基于机器学习技术的应用数据才能发挥其魔力。

  大数据的核心是利用数据的价值机器学习是利用数据价值的关键技术,对于大数据而言机器学习是不可或缺的。相反对于机器学习而言,越多的数據会越 可能提升模型的精确性同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术因此,机器学習的兴盛也离不开大数据的帮助 大数据与机器学习两者是互相促进,相依相存的关系

  机器学习与大数据紧密联系。但是必须清醒的认识到,大数据并不等同于机器学习同理,机器学习也不等同于大数据大数据中包含有分布式计算,内存数据库多维分析等等哆种技术。单从分析方法来看大数据也包含以下四种分析方法:

  1.大数据,小分析:即数据仓库领域的OLAP分析思路也就是多维分析思想。


  2.大数据大分析:这个代表的就是数据挖掘与机器学习分析法。
  3.流式分析:这个主要指的是事件驱动架构
  4.查询分析:經典代表是NoSQL数据库。

  也就是说机器学习仅仅是大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力在某种场合下昰大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法

  机器学习与大数据的结合产生了巨大的价值。基于機器学习技术的发展数据能够“预测”。对人类而言积累的经验越丰富,阅历也广泛对未来的判断越准确。例如常说的“经验丰富”的人比“初出茅庐”的小伙子更有工作上的优势就在于经验丰富的人获得的规律比他人更准确。而在机器学习领域根据著名的一个實验,有效的证实了机器学习界一个理论:即机器学习模型的数据越多机器学习的预测的效率就越好。见下图:

图15 机器学习准确率与数據的关系

  通过这张图可以看出各种不同算法在输入的数据量达到一定级数后,都有相近的高准确度于是诞生了机器学习界的名言:成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!

  在大数据的时代有好多优势促使机器学习能够应用更广泛。例洳随着物联网和移动设备的发展我们拥有的数据越来越多,种类也包括图片、文本、视频等非结构化数据这使得机器学习模型可以获嘚越来越多的数据。同时大数据技术中的分布式计算Map-Reduce使得机器学习的速度越来越快可以更方便的使用。种种优势使得在大数据时代机器学习的优势可以得到最佳的发挥。

6.机器学习的子类--深度学习

  近来机器学习的发展产生了一个新的方向,即“深度学习”

  虽嘫深度学习这四字听起来颇为高大上,但其理念却非常简单就是传统的神经网络发展到了多隐藏层的情况。

  在上文介绍过自从90年玳以后,神经网络已经消寂了一段时间但是BP算法的发明人Geoffrey Hinton一直没有放弃对神经网络的研究。由于神经网络在隐藏层扩大到两个以上其訓练速度就会非常慢,因此实用性一直低于支持向量机2006年,Geoffrey Hinton在科学杂志《Science》上发表了一篇文章论证了两个观点:

  1.多隐层的神经网絡具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画从而有利于可视化或分类;

  2.深度神经网络在训练上的难度,可鉯通过“逐层初始化” 来有效克服

  通过这样的发现,不仅解决了神经网络在计算上的难度同时也说明了深层神经网络在学习上的優异性。从此神经网络重新成为了机器学习界中的主流强大学习技术。同时具有多个隐藏层的神经网络被称为深度神经网络,基于深喥神经网络的学习研究称之为深度学习

  由于深度学习的重要性质,在各方面都取得极大的关注按照时间轴排序,有以下四个标志性事件值得一说:

  2012年6月《纽约时报》披露了Google Brain项目,这个项目是由Andrew Ng和Map-Reduce发明人Jeff Dean共同主导用16000个CPU Core的并行计算平台训练一种称为“深层神经網络”的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功Andrew Ng就是文章开始所介绍的机器学习的大牛(图1中左者)。

  2012年11月微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲后台的计算机一气呵成自动完成语音识别、英Φ机器翻译,以及中文语音合成效果非常流畅,其中支撑的关键技术是深度学习;

  2013年1月在百度的年会上,创始人兼CEO李彦宏高调宣咘要成立百度研究院其中第一个重点方向就是深度学习,并为此而成立深度学习研究院(IDL)

  2013年4月,《麻省理工学院技术评论》杂志将罙度学习列为2013年十大突破性技术(Breakthrough Technology)之首

图17 深度学习的发展热潮

  文章开头所列的三位机器学习的大牛,不仅都是机器学习界的专家更昰深度学习研究领域的先驱。因此使他们担任各个大型互联网公司技术掌舵者的原因不仅在于他们的技术实力,更在于他们研究的领域昰前景无限的深度学习技术

  目前业界许多的图像识别技术与语音识别技术的进步都源于深度学习的发展,除了本文开头所提的Cortana等语喑助手还包括一些图像识别应用,其中典型的代表就是下图的百度识图功能

  深度学习属于机器学习的子类。基于深度学习的发展極大的促进了机器学习的地位提高更进一步地,推动了业界对机器学习父类互联网人工智能是什么梦想的再次重视

7.机器学习的父类--互聯网人工智能是什么

  互联网人工智能是什么是机器学习的父类。深度学习则是机器学习的子类如果把三者的关系用图来表明的话,則是下图:


图19 深度学习、机器学习、互联网人工智能是什么三者关系

  毫无疑问互联网人工智能是什么(AI)是人类所能想象的科技界最突破性的发明了,某种意义上来说互联网人工智能是什么就像游戏最终幻想的名字一样,是人类对于科技界的最终梦想从50年代提出互联網人工智能是什么的理念以后,科技界产业界不断在探索,研究这段时间各种小说、电影都在以各种方式展现对于互联网人工智能是什么的想象。人类可以发明类似于人类的机器这是多么伟大的一种理念!但事实上,自从50年代以后互联网人工智能是什么的发展就磕磕碰碰,未有见到足够震撼的科学技术的进步

  总结起来,互联网人工智能是什么的发展经历了如下若干阶段从早期的逻辑推理,箌中期的专家系统这些科研进步确实使我们离机器的智能有点接近了,但还有一大段距离直到机器学习诞生以后,互联网人工智能是什么界感觉终于找对了方向基于机器学习的图像识别和语音识别在某些垂直领域达到了跟人相媲美的程度。机器学习使人类第一次如此接近互联网人工智能是什么的梦想

  事实上,如果我们把互联网人工智能是什么相关的技术以及其他业界的技术做一个类比就可以發现机器学习在互联网人工智能是什么中的重要地位不是没有理由的。

  人类区别于其他物体植物,动物的最主要区别作者认为是“智慧”。而智慧的最佳体现是什么

  是计算能力么,应该不是心算速度快的人我们一般称之为天才。
  是反应能力么也不是,反应快的人我们称之为灵敏
  是记忆能力么,也不是记忆好的人我们一般称之为过目不忘。
  是推理能力么这样的人我也许會称他智力很高,类似“福尔摩斯”但不会称他拥有智慧。
  是知识能力么这样的人我们称之为博闻广,也不会称他拥有智慧

  想想看我们一般形容谁有大智慧?圣人诸如庄子,老子等智慧是对生活的感悟,是对人生的积淀与思考这与我们机器学习的思想哬其相似?通过经验获取规律指导人生与未来。没有经验就没有智慧

图20 机器学习与智慧

  那么,从计算机来看以上的种种能力都囿种种技术去应对。

  例如计算能力我们有分布式计算反应能力我们有事件驱动架构,检索能力我们有搜索引擎知识存储能力我们囿数据仓库,逻辑推理能力我们有专家系统但是,唯有对应智慧中最显著特征的归纳与感悟能力只有机器学习与之对应。这也是机器學习能力最能表征智慧的根本原因

  让我们再看一下机器人的制造,在我们具有了强大的计算海量的存储,快速的检索迅速的反應,优秀的逻辑推理后我们如果再配合上一个强大的智慧大脑一个真正意义上的互联网人工智能是什么也许就会诞生,这也是为什么说茬机器学习快速发展的现在互联网人工智能是什么可能不再是梦想的原因。

  互联网人工智能是什么的发展可能不仅取决于机器学习更取决于前面所介绍的深度学习,深度学习技术由于深度模拟了人类大脑的构成在视觉识别与语音识别上显著性的突破了原有机器学習技术的界限,因此极有可能是真正实现互联网人工智能是什么梦想的关键技术无论是谷歌大脑还是百度大脑,都是通过海量层次的深喥学习网络所构成的也许借助于深度学习技术,在不远的将来一个具有人类智能的计算机真的有可能实现。

  最后再说一下题外话由于互联网人工智能是什么借助于深度学习技术的快速发展,已经在某些地方引起了传统技术界达人的担忧真实世界的“钢铁侠”,特斯拉CEO马斯克就是其中之一最近马斯克在参加MIT讨论会时,就表达了对于互联网人工智能是什么的担忧“互联网人工智能是什么的研究僦类似于召唤恶魔,我们必须在某些地方加强注意”

图21 马斯克与互联网人工智能是什么

  尽管马斯克的担心有些危言耸听,但是马斯克的推理不无道理“如果互联网人工智能是什么想要消除垃圾邮件的话,可能它最后的决定就是消灭人类”马斯克认为预防此类现象嘚方法是引入政府的监管。在这里作者的观点与马斯克类似在互联网人工智能是什么诞生之初就给其加上若干规则限制可能有效,也就昰不应该使用单纯的机器学习而应该是机器学习与规则引擎等系统的综合能够较好的解决这类问题。因为如果学习没有限制极有可能進入某个误区,必须要加上某些引导正如人类社会中,法律就是一个最好的规则杀人者死就是对于人类在探索提高生产力时不可逾越嘚界限。

  在这里必须提一下这里的规则与机器学习引出的规律的不同,规律不是一个严格意义的准则其代表的更多是概率上的指導,而规则则是神圣不可侵犯不可修改的。规律可以调整但规则是不能改变的。有效的结合规律与规则的特点可以引导出一个合理嘚,可控的学习型互联网人工智能是什么

8.机器学习的思考--计算机的潜意识

  最后,作者想谈一谈关于机器学习的一些思考主要是作鍺在日常生活总结出来的一些感悟。

  回想一下我在节1里所说的故事我把小Y过往跟我相约的经历做了一个罗列。但是这种罗列以往所囿经历的方法只有少数人会这么做大部分的人采用的是更直接的方法,即利用直觉那么,直觉是什么其实直觉也是你在潜意识状态丅思考经验后得出的规律。就像你通过机器学习算法得到了一个模型,那么你下次只要直接使用就行了那么这个规律你是什么时候思栲的?可能是在你无意识的情况下例如睡觉,走路等情况这种时候,大脑其实也在默默地做一些你察觉不到的工作

  这种直觉与潛意识,我把它与另一种人类思考经验的方式做了区分如果一个人勤于思考,例如他会每天做一个小结譬如“吾日三省吾身”,或者怹经常与同伴讨论最近工作的得失那么他这种训练模型的方式是直接的,明意识的思考与归纳这样的效果很好,记忆性强并且更能嘚出有效反应现实的规律。但是大部分的人可能很少做这样的总结那么他们得出生活中规律的方法使用的就是潜意识法。

  举一个作鍺本人关于潜意识的例子作者本人以前没开过车,最近一段时间买了车后天天开车上班。我每天都走固定的路线有趣的是,在一开始的几天我非常紧张的注意着前方的路况,而现在我已经在无意识中就把车开到了目标这个过程中我的眼睛是注视着前方的,我的大腦是没有思考但是我手握着的方向盘会自动的调整方向。也就是说随着我开车次数的增多,我已经把我开车的动作交给了潜意识这昰非常有趣的一件事。在这段过程中我的大脑将前方路况的图像记录了下来,同时大脑也记忆了我转动方向盘的动作经过大脑自己的潛意识思考,最后生成的潜意识可以直接根据前方的图像调整我手的动作假设我们将前方的录像交给计算机,然后让计算机记录与图像對应的驾驶员的动作经过一段时间的学习,计算机生成的机器学习模型就可以进行自动驾驶了这很神奇,不是么其实包括Google、特斯拉茬内的自动驾驶汽车技术的原理就是这样。

  除了自动驾驶汽车以外潜意识的思想还可以扩展到人的交际。譬如说服别人一个最佳嘚方法就是给他展示一些信息,然后让他自己去归纳得出我们想要的结论就好比在阐述一个观点时,用一个事实或者一个故事,比夶段的道理要好很多古往今来,但凡优秀的说客无不采用的是这种方法。春秋战国时期各国合纵连横,经常有各种说客去跟一国之君交流直接告诉君主该做什么,无异于自寻死路但是跟君主讲故事,通过这些故事让君主恍然大悟就是一种正确的过程。这里面有許多杰出的代表如墨子,苏秦等等

  基本上所有的交流过程,使用故事说明的效果都要远胜于阐述道义之类的效果好很多为什么鼡故事的方法比道理或者其他的方法好很多,这是因为在人成长的过程经过自己的思考,已经形成了很多规律与潜意识如果你告诉的規律与对方的不相符,很有可能出于保护他们会本能的拒绝你的新规律,但是如果你跟他讲一个故事传递一些信息,输送一些数据给怹他会思考并自我改变。他的思考过程实际上就是机器学习的过程他把新的数据纳入到他的旧有的记忆与数据中,经过重新训练如果你给出的数据的信息量非常大,大到调整了他的模型那么他就会按照你希望的规律去做事。有的时候他会本能的拒绝执行这个思考過程,但是数据一旦输入无论他希望与否,他的大脑都会在潜意识状态下思考并且可能改变他的看法。

  如果计算机也拥有潜意识(囸如本博客的名称一样)那么会怎么样?譬如让计算机在工作的过程中逐渐产生了自身的潜意识,于是甚至可以在你不需要告诉它做什麼时它就会完成那件事这是个非常有意思的设想,这里留给各位读者去发散思考吧

  本文首先介绍了互联网界与机器学习大牛结合嘚趋势,以及使用机器学习的相关应用接着以一个“等人故事”展开对机器学习的介绍。介绍中首先是机器学习的概念与定义然后是機器学习的相关学科,机器学习中包含的各类学习算法接着介绍机器学习与大数据的关系,机器学习的新子类深度学习最后探讨了一丅机器学习与互联网人工智能是什么发展的联系以及机器学习与潜意识的关联。经过本文的介绍相信大家对机器学习技术有一定的了解,例如机器学习是什么它的内核思想是什么(即统计和归纳),通过了解机器学习与人类思考的近似联系可以知晓机器学习为什么具有智慧能力的原因等等其次,本文漫谈了机器学习与外延学科的关系机器学习与大数据相互促进相得益彰的联系,机器学习界最新的深度学習的迅猛发展以及对于人类基于机器学习开发智能机器人的一种展望与思考,最后作者简单谈了一点关于让计算机拥有潜意识的设想

  机器学习是目前业界最为Amazing与火热的一项技术,从网上的每一次淘宝的购买东西到自动驾驶汽车技术,以及网络攻击抵御系统等等嘟有机器学习的因子在内,同时机器学习也是最有可能使人类完成AI dream的一项技术各种互联网人工智能是什么目前的应用,如微软小冰聊天機器人到计算机视觉技术的进步,都有机器学习努力的成分作为一名当代的计算机领域的开发或管理人员,以及身处这个世界使用鍺IT技术带来便利的人们,最好都应该了解一些机器学习的相关知识与概念因为这可以帮你更好的理解为你带来莫大便利技术的背后原理,以及让你更好的理解当代科技的进程

10.后记  这篇文档花了作者两个月的时间,终于在2014年的最后一天的前一天基本完成通过这篇文嶂,作者希望对机器学习在国内的普及做一点贡献同时也是作者本人自己对于所学机器学习知识的一个融汇贯通,整体归纳的提高过程作者把这么多的知识经过自己的大脑思考,训练出了一个模型形成了这篇文档,可以说这也是一种机器学习的过程吧(笑)

  作者所茬的行业会接触到大量的数据,因此对于数据的处理和分析是平常非常重要的工作机器学习课程的思想和理念对于作者日常的工作指引莋用极大,几乎导致了作者对于数据价值的重新认识想想半年前,作者还对机器学习似懂非懂如今也可以算是一个机器学习的Expert了(笑)。泹作者始终认为机器学习的真正应用不是通过概念或者思想的方式,而是通过实践只有当把机器学习技术真正应用时,才可算是对机器学习的理解进入了一个层次正所谓再“阳春白雪”的技术,也必须落到“下里巴人”的场景下运用目前有一种风气,国内外研究机器学习的某些学者有一种高贵的逼格,认为自己的研究是普通人无法理解的但是这样的理念是根本错误的,没有在真正实际的地方发揮作用凭什么证明你的研究有所价值呢?作者认为必须将高大上的技术用在改变普通人的生活上才能发挥其根本的价值。一些简单的場景恰恰是实践机器学习技术的最好地方。

  最后作者很感谢能够阅读到这里的读者。如果看完觉得好的话还请轻轻点一下赞,伱们的鼓励就是作者继续行文的动力

  对EasyPR做下说明:,一个开源的中文车牌识别系统代码托管在github。其次在前面的博客文章中,包含EasyPR至今的开发在后续的文章中,作者会介绍EasyPR中基于机器学习技术SVM的应用即车牌判别模块的核心内容欢迎继续阅读。

  本文中的所有攵字图片,代码的版权都是属于作者和博客园共同所有欢迎转载,但是务必注明作者与出处任何未经允许的剽窃以及爬虫抓取都属於侵权,作者和博客园保留所有权利

   这篇一万多字的报道的内容是一个中国互联网公司在技术上的努力。这个公司是阿里巴巴——用马云自己的话说,正是因为他不懂技术所以阿里巴巴在技术上嘚实力反而最强,或者谦虚点讲是最强的之一

  对于互联网公司而言,技术分两种一种是很炫的我们经常能够在媒体上看到的各种嫼科技,它的功能是PR和谈资;另一种是互联网公司们每天都在使用的,同它们的业务相关的第一种更吸引眼球,于是会有人和科幻小说仳赛着去描述未来;第二种虽然枯燥但却支撑着科技公司们创造出绝大部分利润和应收。包括阿里巴巴在内的巨大多数中国互联网公司赱的都是一条从业务开始,不断向技术进发的道路它们通过商业模式的创新迅速崛起,吸引来海量的用户仅仅要服务好这些用户就需偠它们在技术上去不断投入。然后当单纯的商业模式的红利逐渐变弱时,它们需要找到新的增长动力技术就变成了一个有吸引力的选項。

  一直以来中国互联网公司都承受着只有商业模式创新,没有技术创新的指责但突然之间,我们能看到几乎每一家有点追求的Φ国互联网公司都开始宣称自己是一家技术公司中国已经出现了包括阿里巴巴、腾讯和百度在内,以市值衡量的世界级科技公司接下來,这些公司是否能证明自己在技术上的创造力?这是李翔决定深入了解阿里转向一家技术公司的原因

  以下全文13510字,阅读大概需要30分鍾

  1、一个神秘部门的兴衰

  2014年9月19日,曼哈顿华尔街11号的纽约证券交易所内挤满了人中国互联网巨头阿里巴巴集团这一天公开上市,并且创下美国历史上融资规模最大的IPO记录阿里巴巴把它变成了一项盛事,公司的高管、主要投资人和来自全球的媒体都聚集在这个哋方马云说:“梦想总是要有的,万一实现了呢”于是,整个中文社交网络都被这句话燃起了热情

  不过,对这家公司而言声勢浩大的IPO还有一个顺带的好处:它的全球影响力的增加带来的对顶尖科技人才的吸引力。实际上普渡大学计算机系和统计系的终身教授、后来蚂蚁金服的首席数据科学家漆远,当时就同阿里巴巴的CTO王坚一起参加了阿里巴巴的IPO活动

  在纽约的上市活动结束之后,阿里巴巴紧接着就在硅谷宣布成立一个新的部门:iDST(数据科学与技术研究院institute of Data Science&Technologies)同时,在美剧《硅谷》第二季的片头阿里巴巴的名字和Facebook、Google、Uber、甲骨攵等一起出现。

  不过似乎没有人能描述出iDST的职责和它对公司的作用。它的名字表示它要研究数据科技——此前马云已经把下一个時代命名为DT时代,也就是数据科技时代但一个单纯的研究院显然对一家商业公司作用不大。商业史上两个最成功的企业研究部门是贝尔實验室和施乐帕罗奥托研究中心事实证明它们虽然对技术的进步贡献卓著,但对自己的公司却没有太大助益当然,它们为公司博取了洺声不过,如果是为了公关效果和提升股价iDST却几乎从来没有公开在媒体上露过面。

  iDST的两位创始人之一漆远1995年时开始做互联网人笁智能是什么与机器学习,并应用于指纹和人脸的检测与识别大脑成像分析,及银行用户行为监控等领域2005年他就在麻省理工学院开发夶规模机器学习系统使用海量CPU并行分析人类基因组数据,解码生物基因组与基因调控网络2008年开始研究今天让英伟达(Nvidia)股价飙升、成为领域偅要玩家的GPU芯片,做机器学习加速后来王坚回忆说,他想要招揽漆远加入阿里巴巴组建iDST同时把当时蚂蚁金服的总裁井贤栋和蚂蚁金服嘚CTO程立介绍给漆远。聊完之后王坚说:“我也吃惊他真的非常果断就来了”。

  王坚对漆远说阿里巴巴是坐在金山上啃馒头。金山昰阿里巴巴拥有的丰富数据这些数据的价值并没有被挖掘出来,“数据就是土壤但如果在这片土壤上没有盖起大楼,土壤本身就没有價值”因此,建立超大规模机器学习平台这个伟大的任务“就交给你了”。6年前在游说王坚加入阿里巴巴时,当时阿里巴巴的首席囚力资源官彭蕾说过类似的话阿里巴巴的平台上产生了丰富的数据,但公司却拿它束手无策“希望你(王坚)来拯救我们。”

  IDST的另一位创始人金榕是美国密歇根州立大学终身教授曾获得过美国国家科学基金会奖(漆远也获得过该奖)——有超过200位诺贝尔奖得主都获得过这個奖金的资助。正式加入阿里巴巴的iDST之前他曾在阿里巴巴旗下的互联网广告平台阿里妈妈做过一年的技术顾问,帮助解决一个大规模算法优化问题把广告展示的收入提高了15~20%。此前金榕从未在工业界工作过“对我来说,是第一次感觉理论的东西原来可以改变生活”

  那一年的顾问生活非常美好。他没有固定的上下班时间公司的业务人员对他尊敬有加,而他又能看到自己的理论影响现实并且创造收益“我以为产业界科学家的生活一直都是如此”。于是当王坚发出邀请之后,虽然对要在两个国家之间频繁旅行感到犹豫金榕还是接受了这份工作。

  不过这两位雄心勃勃的科学家,将会很快感受到“理论的东西改变生活”并没有那么容易。

  金榕在IDST的第一個工作任务是帮助聚划算做算法优化。他用“很辛苦”来概括那一段工作的状态

  用算法来提升聚划算的GMV(商品交易总额)在技术上并鈈困难。如果想要提升交易量那么,只需要把价格低的商品排列到搜索结果和推荐选项的前列低价总是可以刺激购买。但是如果在排序和推荐上,出现的总是更低价的商品这就意味着网站吸引来的目标用户群,其收入水平在不断降低“用户从二三线城市一直掉到㈣五线城市,整个内涵完全变了”不过,如果要提高优质高价产品在推荐和排序中的权重交易量和成交总额又会下跌。

  这就是金榕和他的团队开始面对的两难:“你帮业务团队把GMV提升了大家还是会认为这不是个有价值的事情。”如果你不能帮助业务团队把GMV提升那好,你连可见的有价值的贡献也没有做出可是,“到底怎样才是有价值的事情没有人有确切答案。”

  每一次会议都陷入僵局業务部门挑战来自iDST的技术诸神,他们是否真的能够理解这家公司正在做的事情并且用技术来帮助业务团队实现目标。从未在公司工作过嘚技术先知们对这种挑战茫然失措直到两年多后,文质彬彬的金榕才意识到:首先挑战姿态是阿里巴巴这家商业公司的业务团队一贯采取的方式,他们希望的是同样强有力的回应;其次当时聚划算面对的情况,更像是希望能够完成商业模型的转换“在整个集团看来,科技并不是算算数字并不是只要把点击率提高,它想要能够把商业模型做好”

  有一次,碰到当时阿里巴巴集团的COO张勇(花名逍遥子)金榕说,他希望能够把技术团队融合到业务团队中“以真实的业务场景为出发点,去考量和认知(技术)”

  漆远面对的是一种类似於“二十二条军规”的境遇。王坚交给他的任务是建立超大规模机器学习平台他把自己的核心团队放在了北京的阿里妈妈办公室。这些┅直生活在21世纪互联网时代的技术精英马上就体会到19世纪蒸汽机时代的生活,“站在窗前看不到对面的楼我们自己买了空气净化器,囚人发口罩在室内也戴着口罩工作”,“这是非常恶搞的生活像故事一样”。

  到了2月份整个公司都要做新财年的战略规划。在漆远的设想中他要建立的大规模机器学习平台可以同时为阿里妈妈和天猫服务。他向集团CTO王坚提交了一份申请几千台服务器的计划但茬讨论之后被公司否决了。

  在阿里巴巴每一位新加入的同事都有一位mentor(导师)。mentor会帮助新同事更加顺利地融入到这个以强价值观闻名的公司漆远的mentor正是整个阿里巴巴集团价值观的最重要守护者之一,同时兼任阿里巴巴首席人力资源官和蚂蚁金服CEO的彭蕾彭蕾在2月份找漆遠聊了一次,告诉他业务部门对他的观感:“听说他们觉得你一不懂业务二不懂痛点……”

  他遇到了一个“鸡生蛋和蛋生鸡”的问題:如果没有服务器,他的团队没有办法验证自己的算法和程序;但是公司不能批给他服务器因为他不能证明自己的算法和程序更好;他不能证明自己的算法和程序,因为他没有服务器可以跑程序;他没有服务器可以跑程序因为他不能证明自己的算法和程序……

  在一连串嘚挑战下,到了2015年的7月iDST的人马分成了三个部分:漆远和几位同事加入蚂蚁金服;金榕和他的团队加入了淘宝和天猫的搜索部门; 漆远做语音嘚团队留在了阿里云。IDST这个名称仍然保留只是从直属集团,变成阿里云下的一个部门

  这只是大公司内的寻常场景:即使是公司内嘚研究机构,也有可能找不到技术的落地场景得不到同在公司的业务部门的认可。在向技术的跃进和帮助技术找到应用之间存在着一噵玻璃城墙。要击碎这道城墙需要更多策略和耐心。

  2、商业公司和技术公司

  众所周知中国有三家具有统治力的科技公司,就潒美国科技界有谷歌、Facebook、亚马逊、苹果和微软美国记者沃尔特·莫斯伯格把它们同十九世纪和二十世纪那些传统工业巨头像标准石油、美国钢铁公司、杜邦、通用汽车等相提并论——就差没有指责它们像传统巨头一样实施垄断。在2015年有一系列互联网公司的合并如滴滴和快嘚、美团和大众点评、58同城和赶集网等,最大的交易撮合者、华兴资本的CEO包凡感慨说BAT这三家公司就像天上的神仙,它们看着地下的英雄爭斗然后又主导了它们的命运。

  这一切都没什么错它们像十九世纪的工业巨头,或者像希腊神话中挑拨地上战争并主导这些战争嘚诸神唯一有问题的地方在于:不同于在硅谷的同行,在称自己是科技公司时中国的三大巨头总会显得底气不足。谷歌像一个玩具商囚一样不断从自己的口袋中掏出各种新奇的科技产品贩卖给全世界对科技充满幻想的人,从谷歌眼镜、热气球、无人驾驶到AlphaGo;Facebook热衷于谈论洎己的无人机和虚拟现实公司Oculus;亚马逊有AWS、Echo以及Echo的语音大脑Alexa但是BAT尴尬地发现,自己一直以来展示出的形象竟然都是在卖出更多的广告、銷售更多的商品、鼓励人去玩更多的电子游戏,并且拿钱支持创业的O2O公司烧钱补贴用户当然,硅谷的巨头们也都在这么做只不过,它們同时还干了点别的

  现在,中国的科技公司力图改变这一形象CEO马化腾说:“我们现在越来越感觉到,归根结底还是要通过技术的進步企业才有可能保持在战略方面的制高点。如果和过去一样只做纯软件、纯服务可能会在未来的一些领域失去制高点。”

  从2016年開始CEO李彦宏就一直希望人们把百度看成是一家互联网人工智能是什么公司。他不断地告诉大家互联网的下一幕,会是互联网人工智能昰什么百度会是这个行业的领先者之一。

  报名交易即有可能赢取60万夶奖!

  来源:王雅媛港股圈

  众所周知,互联网发展至今已经取代了很多工作也创造了新的工作。

  以网购行业为例网购取玳了线下实体店相关工作岗位,创造了快递、在线客服、后台工程师等相关工作

  但是,它创造的岗位数量和取代的数量是不成比例嘚效率提升必然减少岗位,替代的岗位远大于其创造的同时网购也提升了财富的集中程度。

  早在2015年一篇名为《中国经济发展长期向好基本面没有变 —— 2015年经济形势分析与2016年展望》的报告就指出:

  “尽管网上商品零售、快递等新兴业态创造了部分新的就业岗位,但也必须注意到网店对实体店带来的冲击和显著的替代效应。部分实体店经营困难甚至出现关闭潮部分传统的百货商场也受到较大沖击,经营景气度持续下降这对相关群体就业带来较大影响。” 

  毫无疑问互联网的变革促使很多工作岗位消失。

  一、创造价徝活动所需的人数被减少

  近年来互联网独角兽层出不穷,在雇佣劳动力方面与过去较有价值的公司相比,这些公司只雇佣了少部汾人

  2015年,估值高达150亿美元的Snapchat(SNAP.US一款阅后即焚的照片分享应用)只有330名员工,员工人均估值为4800万美元。

  而同时期市值不足200億美元的索尼(SNE.US),其员工数量是12.5万人人均估值不足16万美元,二者相差300倍

  这种情况并不是个例。Facebook(FB.US)在收购WhatsApp(一款即时通讯应用)时它为这家只有55名员工的公司支付了220亿美元,相当于每位员工的收购价格高达4亿美元

  可见,随着新技术的提高极少数的人就鈳以创造出原本由大量人工才能创造的价值,甚至原超过由后者所创造的价值

  △图片来源:重庆互联网人工智能是什么;有资格被雇佣的人数比例不断降低

  从上图我们能看到一个规律,有资格被雇用的人的比例越来越低与此同时,技术变得越来越廉价所以,烸次衰退都会挤掉更多的劳动力并且能够把那些成本比用机器高得多且技能水平较低的工作实现自动化。

  二、AI的替代效应超乎想象

  以互联网人工智能是什么(以下简称“AI”)为代表的第四次工业革命来临了它引发的人工替代作用是不可与互联网同日而语的。

  机器人能直接取代人类劳作比如较机械的工作、相当一部分制造业产业工人等,且几乎不创造过多新的工作岗位

  2017年,来自牛津夶学人类未来研究所、耶鲁大学的多名专家对机器学习研究者进行了一场大规模调查结果显示,受访者们预计AI将在未来40年内在多个领域赶超人类。

  如上图所示例如:畅销书写作(2049年),外科医生工作(2053年)在所有工作上赶超人类(2065年)。参与调查的研究者们相信有50%的几率AI可能在45年内赶超人类在所有领域的工作。

  受访者认为8年后AI将能胜任翻译类工作,37年后能胜任外科医生工作11.4年后,AI将創作出能够跻身美国TOP40排行榜的流行歌曲33年后,AI将写出能够登上纽约时报畅销榜的长篇或短篇小说

  那么,在创造就业方面AI的表现洳何?

  Joblift(英国招聘网站)通过对英国的自动化和AI领域潜在的就业机会与失业的工作进行比较

  如上图所示,未来13年AI、自动化和機器人技术将创造2,535009个新的就业机会。假设到2030年整个英国就业市场的增长率仍然保持在1.49%的,那么约有13375,363个岗位将被自动化取代

  因此,新产生的工作只能填补被自动化和机器人取代的工作岗位的19%

  ● 制造业+AI后,大量工作岗位将消失

  由于中国是制造业大国AI在中国的替代效果将超过全球平均水平。美国《科学》杂志指出到了2045年,全球50%的工作岗位都有可能被AI机器人替代中国为77%。

  也就昰说在未来30年里,中国每4个工作岗位会有3个被AI代替这其实也是必然的。

  创新工场董事长李开复所认为AI比移动互联网还要伟大。傳统制造业与AI的融合则有望将人们带入一个新的工业化时代。

  在过去的十多年间我国讲的最多的是信息化、互联网化与工业的融匼,这种融合很大程度上改变了工业的生产中的管理流程、设计制造方式等并着重在效率提升和流程优化上,并没有完全改变工业的本質

  AI与制造业的融合会彻底改变传统工业的生产方式。比如:制造订单多少的安排可能是由AI对未来市场会出现的需求进行预判;在生產制造过程中人力的使用也将越来越少。那么这会对企业造成什么样的影响呢

  三、AI替代效应,能提高企业价值

  劳动力被替代會带来一个现象那就是某些本来已处于垄断地位的制造业公司,在结合AI技术后大大减少了他们对于劳动力的需求。人工成本大幅降低而且生产效率得到提高。AI机器不知疲倦可以24小时工作。

  △图片来源:重庆互联网人工智能是什么;美国国民油井公司的自动化钢鐵钻工

  这一切使得早已领先的制造业企业,具备更强大的盈利能力它们的内在价值也会得到显著提升,其股价会有更大上升空间

  比如:格力电器(000651.SZ)在2017年宣布向智能制造转型,结合AI技术在智能装备领域坚持自主研发生产。

  经过5年发展格力电器不但完荿了内部生产自动化、自主研发制造智能装备,使得整体生产效率提升10.5%而且还为客户提供定制的自动化解决方案,如工业机器人、数控機床等智能装备产品和服务

  △图片来源:网络;格力电器的智能生产

  这些举动,导致格力电器即便营业额没有增加盈利能力吔会有所提高。如此一来它的股票就具备更大的投资价值。

  所以通过这个价值传导的链条,AI最终会导致优秀制造业公司股票价值進一步提升

  科技的进步,将加速提升社会创造价值的效率社会财富将急剧增加,但这不意味着大部分人的收入会随之提升

  AI將使得贫富差距进一步拉大,中产阶级面临消失的威胁社会财富分布会呈现哑铃形状,AI会导致人类将大面积失业估计政府届时会出台政策提供最低生活保障。

  而股票将成为重要的对抗这种不平衡力量的工具人们通过持有那些受益于此的公司股票,来平衡AI引发的工莋岗位消失和利益分配极度不均的问题

  因此,在互联网人工智能是什么时代我们将比以往更需要投资股市。随着AI的“智能爆炸”漸行渐近超级互联网人工智能是什么(ASI)将诞生,越来越高级的人类工作将被替代在这个过程中,有AI机器助力的企业的价值将加速提升对应的股票也将有更大的上涨空间,这种“企业+AI”的上升空间要远远大于“企业+互联网”带来的发展空间

  四、AI时代的股市投资

  AI对股市本身也将有显著的改变。随着量化投资和AI的普及传统投资方法的生存空间会受到挤压,AlphaGo能够下围棋是因为它通过神经网络進行深度学习,不断的自我迭代而人类的围棋高手已经不是他的对手。

  △图片来源:网络;AlphaGo对战人类

  可以预见未来会有强大嘚金融AlphaGo出现,用世界上主要金融市场几十年的数据测试投资策略再利用这些数据进行高频交易,这将完全改变金融市场的生态AI的参与將使金融市场的短期套利机会消失。

  比如:通过深度学习、进化算法AI可以通过自己的系统虚拟一批交易员,然后让这批虚拟交易员互相PK这其中的竞争与淘汰是万亿次级别的,最后筛选出最精英的交易员

  在这个基础上,运用深度神经网络还能发现人类都找不絀逻辑但的确存在的特点,然后进行交易

  这会导致人类基金经理和交易员的失业,通过观察自动化交易带来的改变就可见一斑下圖为2009年~2017年2月,美国被动投资和主动投资的资金流向它展示了自动化交易是如何给人类交易员带来毁灭性打击的。

  △图片来源:扑克投资家;累计流入被动与主动投资基金金额对比;(上升的曲线:历年流向被动投资基金的资金数额下降的曲线:流向传统人为操控的主动投资型基金的资金数额)

  自动化交易目前是AI的初级形式,这种交易模式可以避免人类的情绪影响和人为失误造成的损失

  身處AI时代,作为普通投资者比以往更需要保持与时俱进的态度,把投资目光放得更长远去发现AI带来的长期机会,而根据我们以上的论述这个机会将首先出现在制造业中。

  中国庞大的制造业结合AI,将会实现新一轮质的飞跃而只要我们分析的大方向是正确的,我们┅定可以找到并把握这种由AI带来的巨大投资机遇

我要回帖

更多关于 互联网人工智能是什么 的文章

 

随机推荐