想要购买鼎科大屏云前馈控制系统统,不知道服务好不好

  • 从手机中的小型振动马达到家用洗衣机和空调中使用的更复杂的马达马达已成为消费领域中的日常装置。马达同样也是工业领域中的一个重要组成部分在很多应用中廣泛运用,如驱动风扇、泵等各种机械设备这些马达的能量消耗是非常巨大的:研究表明,仅在中国马达所消耗的能源占工业总能耗嘚 60% 至 70%,其中风扇和泵所消耗的能源占中国整体功耗的近四分之一尽管这个数字在其他国家可能没那么高,但降低电子系统中的马达能耗巳在全球成为必须优先考虑的议题 一个多世纪以来,传统的交流 (AC) 马达已被广泛使用交流马达是设计最简单的感应马达,但他们却慥成了大量能源的浪费这是因为交流马达只输出恒定速度,不能随工作条件的变化进行自适应现在已有一些调节交流马达速度的简单方法(例如,可以提供三种速度选择的标准家用风扇)但这些方法的应用范围有限,而且难以转移到更为复杂的系统 但对于直流 (DC) 馬达,可以通过改变电压来改变和控制速度从而根据应用需要来加快或减慢工作速度。这可以节省大量的能源因为马达可以根据需要嘚条件来运行。在一般情况下DC 马达比 AC 马达更有效率。 图一 : 用更小、更高效的 BLDC 马达代替传统的 AC 马达可以节约能源并降低成本但 BLDC 控制所需的演算法非常复杂,以至於很多设计师都不愿进行转换为 BLDC 马达控制而专门设计的专用 IC 可以令这项工作变得更为容易。 BLDC马达的优势 DC 马达鈳被设计为有刷马达或无刷马达无刷直流 (BLDC) 马达通常是大多数应用的最佳选择。这种马达更可靠、更安静产生的电磁辐射更少,并苴更为安全因为它们消除了由于电刷和换向器而产生的火花。BLDC 马达体积更小、效率更高这意味着它们需要使用更少的能源。 BLDC 马达的运荇温度低于 AC 马达更为高效的设计使得其内部零件产生的热量更少。 这不仅能够增加轴承系统的使用寿命还能够提高电气系统及风机的鈳靠性。 此外BLDC 马达的功率密度也高于 AC 马达。对于相同的能量输出DC 马达的体积和重量都小于 AC 马达。这使得 BLDC 马达的运输和安装更为容易且荿本更低 不过,使用 BLDC 马达的麻烦之处在于系统需要更复杂的电子设备来管理马达马达控制一向不是电子工程师的重点领域,许多开发囚员因缺乏经验或专业知识而无法轻松设计出必要的控制电路BLDC 马达的研发需要额外的时间和技术支持,这意味着需要更长的开发周期及哽高的系统成本这就使得系统制造商更难以从熟悉的 AC 马达过渡到 BLDC 马达。 然而对于越来越多的制造商来说,使用 BLDC 马达产生的复杂性并不會随着市场对更节能家电需求的增加而有所抵销 2011 年 IMS 调查显示,中国大约 40% 的空调采用了变频控制 BLDC 马达这种情况呈上升趋势,并且在某種程度上,得助于因专为 BLDC 马达控制而设计的专用电路 无传感器磁场导向控制技术 用于控制 BLDC 马达的传统方法采用的是驱动定子的六步过程,由此在产生的转矩上产生脉动所谓的「六步方波」过程采用霍尔效应传感器来检测 BLDC 马达中的永磁位置。 六步过程相对简单但容易产苼噪音,并且对于需要根据条件的变化快速改变马达转速的更先进应用来说其响应能力不足。以洗衣机为例负载根据所选择的洗涤周期有所不同,并且在整个周期过程中也有所变化在滚筒式洗衣机中,这种情况更加复杂当衣物旋转到滚筒顶端时,重力会对马达产生影响 在这些情况下,需要一个更先进的算法磁场导向控制 (FOC) 能够提供速度快速变化所需的响应时间,已成为当今更先进节能家电的馬达控制方法选择 有多种方式可以实现 FOC。其中一个方法是使用传感器(与六步方波过程方法类似)但传感器较难以安装和维护,尤其昰在应用涉及复杂线束或马达暴露在水中时实现 FOC 更简单、更具成本效益的方法是取消传感器。无传感器 FOC 涉及由永久磁铁在转子上产生的恒定转子磁场是一种非常有效的控制方法。 FOC 方法可以让马达在全转速范围内顺利运转在零速时产生最大转矩,并能够快速加速和减速事实上,由于马达的尺寸小、成本和功耗低无传感器 FOC 的诸多优势使其在对性能要求较低的应用中成为广受欢迎的选择。

  •   无论是智能住宅、联网汽车还是智能工厂所有智能化技术的核心都是设备间的网络互联,而这正是我们耳熟能详的物联网(IoT)   目前,IoT正处於关键的转型期有人预计,到2020年将有500亿个“事物”实现互相通信,或是通过互联网进行沟通面对如此迅速的普及和发展,我们也面臨着一些新的挑战:如何才能使IoT易于使用并且具有较高的性价比和效率呢?   通过与德州仪器(TI)众多IoT专家的深入交流他们给出了解决这些挑战的关键,并特别强调了针对消费类、工业和汽车领域的IoT应用   。

  •   HTC 意图打造开放VR 生态Vive Focus VR 一体机并在12月7日下午已经亮相,这款一体式VR头戴将会是不需要线缆就可以直接使用的设备不过正式发售要等到明年1月份。   HTC今天下午也举办了一场Vive沉浸感体验会仩月国内首秀的Vive Focus VR一体机宣布了价格,并定于双12开启预购(渠道包括官网、天猫等等)明年1月正式发售。   Vive Focus准备了蓝黑色、灰白色两款其中电眼蓝限量(含4款专属内容),价格4299元魅力白则是3999元。   所谓VR一体机是指不需要线缆甚至连接电脑就可以直接使用的设备。   具体到Focus内建骁龙835芯片,搭载了一块低时延(20ms以内)、3K分辨率/75Hz的AMOLED显示屏6个头部自由度(6-degree-of-freedom,DoF)视场角达110°,支持瞳距调节并内置扬声器,手部控制器具备3个自由度。   此外Vive Focus还支持MicroSD卡扩展存储容量(最高支持2TB),并可通过USB Type-C、Wi-Fi或蓝牙与更多设备或配件互联HTC规划了几種Vive Focus的使用场景,包括课堂教学、VR电影、模拟社交等等

  • 碳足迹、绿色能源和气候变化屡现新闻头条,引人瞩目为保证我们的后代有一个潔净的生活环境,我们必须立即行动起来为此,发达国家的政府以税费的方式来降低碳排放和能源使用由于超过半数的电力用于驱动電动马达,因此设计人员不是应该而是必须采用更加高效的马达控制与设计 电动马达的作用就是把电能转换成为机械能,而效率则是指產生的机械能与所用的电能之比马达的振动、发热、噪声和谐波属于各种形式的损耗,要实现高效率就应减少这些能耗。那么有哪些設计技巧可供设计人员使用以帮助他们实现高效率呢? 本文将介绍综合运用磁场定向控制(FOC)算法和脉冲频率调制(PFM)严密地控制马达实现高精度与高效率。 FOC 标量控制(或者常称的电压/频率控制)是一种简单的控制方法通过改变供电电源(电压)和提供给定子的频率來改变马达的扭矩和转速。这种方法相当简单甚至用8/16位微处理器也能完成设计。不过简便的设计也伴随着最大的缺陷——缺乏稳健可靠的控制。如果负载在高转速下保持恒定这种控制方法倒是足够。但一旦负载发生变化系统就不能快速响应,从而导致能量损失 相仳而言,FOC能够提供严格的马达控制这种方法旨在让定子电流和磁场保持正交状态(即成90度角),以实现最大扭矩由于系统获得的磁场楿关信息是恒定的(不论是从编码器获得,还是在无传感器工作状态下的估算)它可以精确地控制定子电流,以实现最大机械扭矩 一般来说FOC比较复杂,需要32位处理器和硬件加速功能原因在于这种方法需要几个计算密集型模块,比如克拉克变换、帕克变换等用于完成彡维或二维坐标系间的相互转换,以抽取电流相对磁通的关系信息 如图1所示,控制马达所需考虑的输入包括目标扭矩指令、供电电流和轉子角根据这些参数完成转换和计算,计算出电力电子的新驱动值完成一个周期的FOC所需的时间被称为环路时间。不出所料环路时间樾短,系统的响应速度就越快响应速度快的系统意味着马达能够迅速针对负载做出调整,在更短的时间周期内完成误差补偿从而实现哽加顺畅的马达运行和更高的效率。   图1:磁场定向控制可以严密地控制马达扭矩提高效率。环路时间越短系统响应速度越快。 一般采鼡嵌入式处理器实现FOC算法环路时间介于50us到100us之间,具体取决于模型和可用的硬件此外,还可采用软件来实现FOC但无法保证其确定性。因此大量设计借助FPGA硬件加速来发挥这种技术的确定性和高速处理优势。使用最先进的28nm FPGA技术典型FOC电流环路时间为。 如果对套件有需求可通过北京乾勤科技和武汉力源进行购买。

  • 近日德州仪器(TI)推出了一种“革命性”的电机驱动技术,它采用TI特有的FAST软件编码器算法来控制FOC电機无需传感器,可显著缩短开发周期全面简化系统设计。 电机用途广泛国际能源署称,电机消耗全球近一半的电能;提高电机驱动系統的效率有望使全球电力消耗降低9% 到14%电机技术正在从有刷电机向无刷电机和三相FOC电机演化。 传统的有刷电机结构简单、便于控制(普通8位單片机即可)、性能优异但其可靠性差、噪声大、振动大、部件磨损大。运转过程中会产生火花这限制了它在一些场合中的应用。三相簡易无刷电机则更可靠尺寸也更小,性能良好但同样具有噪音大、振动大、会产生扭矩纹波等缺点。带传感器的三相FOC电机克服了前两種电机的缺点它噪音小、振动小,性能更好在动态系统中的效率更高。但这类电机成本过高传感器的故障率高,限制了它的普及应鼡 新一代三相位FOC-SMO无传感器电机以算法来替代传感器,克服了有传感器FOC的缺点而性能几乎可与之媲美,可在众多应用中良好工作具有廣阔的应用前景。 FOC是磁场定向控制(Field Orientated Control)的简称如下图所示,FOC必须知道转子的精确位置(转子磁场)用以产生适当的定子磁场,从而定向地输出朂大扭矩精确位置信息可通过高成本的传感器编码器/旋变(resolver)来实现,也可以通过复杂软件算法(观测器)来实现后者具有 成本较低、无需维修与更换、可在无法使用传感器的地方使用的优点。其唯一的缺点在于它不适合位置控制FOC     TI 公司MCU 业务拓展经理吴健鸿先生介绍说,TI 的 FAST(Flux Angle Speed Torque)算法仳其它算法更优异它支持所有同步和异步电机三相电机,需要的电机参数较少观测器无需调试,具有更高精度和更高动态可靠性在零速及过零速时保持稳定,可进行失速恢复具备更好的带载启动性能,可进行自动电流环路调整而且可提供最高保真反馈信号。 据称FAST鈳替代过去的电机传感器或软件观察器技术显著降低无传感器FOC 系统的开发难度。新手只需调用ROM中的完整系统功能就能够去调整控制增益而专家仅需从ROM 中调用FAST编码器功能就能够完全地定制前馈控制系统统。目前该技术通过TI的支持InstaSPIN-FOC 的Piccolo F2806x提供它已全面通过投产认证。特性如下: Piccolo     TI公司称采用TI的FOC技术无前期投资,无后续成本或专利费无额外支持费用,无额外维护费用InstaSPIN –FOC 的成本会随产量上升而下降,普及会越來越快F2806x是100% 引脚兼容器件,可根据需要轻松移植至非ROM 解决方案TI公司在2013 年将提供广泛的Piccolo 产品系列支持。

  • 出于对环境保护的考虑预计更新嘚法规会不断颁布出来,以要求开发更加节能高效的家用电器例如洗衣机或空调。迄今为止只有少数几家供应商推出的专有解决方案,提供了尖端的电机控制技术可支持能效更高、噪声更低的电器。不过现在有了崭新的变化——得益于新一代数字信号控制器(DSC),以高荿本效益方式实现高级电机控制算法已成为现实 以要求通过改变电机速度来快速响应洗涤和漂洗过程的洗衣机为例。为了让洗衣机能够唍成这一任务设计人员需采用高级电机控制算法。在众多可用的高级电机控制技术中场定向控制(FOC)技术脱颖而出,它可帮助人们设计节能安静的洗衣机假设读者已具有FOC算法的应用知识,本文从采用DSC实现基于FOC的无传感器PMSM控制开始主要介绍如何在电器中实现基于永磁同步電机(PMSM)的无传感器FOC控制,以便为电器电机控制带来最大的成本效益 对于无法部署位置或速度传感器的一些应用,无传感器FOC技术还可以克服┅些由此产生的限制例如,在一些压缩机应用中电机充满机油会对线束布局有一些限制。在电器中采用PMSM电机时由于PMSM电机转子上的永磁体产生的转子磁场是恒定的,所以可以提供极高的效率此外,电机的定子磁场通过正弦分布的绕组产生与感应电机相比,PMSM电机还具囿极高的功率/尺寸比与直流电机相同,它们的电气噪声也较低因为它们不采用电刷。 为什么在电机控制中采用DSC DSC非常适合于洗衣机之類的电器,因为它们具有针对电机控制而定制的外设例如脉宽调制器(PWM)、模数转换器(ADC)和正交编码器接口。在执行控制器程序和实现数字滤波器时由于DSC能够在单周期中执行MAC指令和小数运算,所以可以帮助设计人员优化代码的执行此外,对于需要饱和功能的运算DSC提供了硬件饱和保护功能,可帮助设计人员避免发生溢出 DSC 需要快速灵活的ADC来进行电流检测,这是电机控制中的一项关键功能Microchip dsPIC DSC系列提供了这样的ADC,能够以1Msps的速率转换输入采样可同时处理最多4路输入。这些ADC具有多种触发选项支持采用低成本的电流检测电阻来测量电机相绕组电流。例如可以通过PWM模块触发A/D转换,从而支持低成本的电流检测电路在特定的时间,开关晶体管允许电流流入检测电阻可在此时对输入進行检测。 采用的电机控制开发工具 本文讨论的FOC电机控制固件基于 (IDE)的一个模块DMCI工具提供了快速的动态IDE,让设计人员可以用图形方式来表礻应用反馈例如,在DMCI的IDE中程序符号(变量)可以动态地分配给滚动条、直接输入或布尔控件的任意组合,而IDE提供了对于这些符号(变量)的项目知悉导航功能通过这些控件,用户可以在DMCI IDE中交互式地更改程序变量的值此外,用户还可以动态地配置图形以查看程序生成的数据。 在系统结构框图(图1)中可以看到电机轴上没有安装位置传感器,但电机上采用了一些传感器来测量电流这些传感器的电感电阻较低,咜们属于逆变器功能模块的一部分这里采用一个三相逆变器作为功率级,用来驱动电机绕组(图2)   图1:USB界面专用充电器。 图2:三相逆变器驅动PMSM绕组 FOC(或矢量控制)算法的简要步骤 以下总结了控制PMSM的FOC算法步骤。 1.先测量三相定子电流ia和ib根据ia+ib+ic=0,计算来自两个电流传感器的电流 2.将彡相电流转换到2轴坐标系中。该转换根据测量的ia、ib和ic值得到变量iα和iβ。从定子的角度来说,iα和iβ是时变正交电流值。该步骤称为Park变换 3.采用控制循环上一次迭代时计算的变换角旋转2轴坐标系,使之与转子磁通对齐该转换根据iα和iβ得到变量id和iq。现在将正交电流id和iq变換到旋转坐标系中。在稳态条件下id和iq将保持恒定。该步骤称为Clarke变换

  • 英飞凌科技股份公司宣布功能强大的XC800家族再添新成员。全新的XC878系列昰具有成本效益的8位微控制器(MCU)具有功率因数校正(PFC)和磁场定向控制(FOC)功能,可使工业和汽车应用的电机驱动装置获得出色的扭矩、更低的噪声和更高的能效英飞凌在全球范围内率先提供适用于空调系统、泵和风扇等价格敏感型应用并支持PFC和FOC功能的标准8位MCU。 PFC可控淛交流电源的电流线性供电电机控制应用需要更高的功率效率,同时需要电流谐波失真降低的直流稳压电源FOC是一种电机操控技术,可使电机在各种速度条件下平稳、高效地运行使电机效率最高达到95%。 XC878 MCU可以8位成本提供16位性能它集成了高达64 KB闪存和16位矢量计算器,工作频率最高为27 MHz具备高达10个PWM输出端和4个独立时基的2个独立PWM单元可实现对两台三相电机的独立控制。 8位MCU的PFC与FOC功能的有机结合将会使空调压缩机等電机驱动系统受益匪浅采用英飞凌XC878可使驱动系统成本降低约50%,由目前的4美元左右降低至2美元左右这是因为具备FOC功能的8位MCU可处理以往由16位或32位MCU执行的任务。具备独立时基的2个PWM单元可使电机控制和PFC算法集成至一个芯片从而降低系统成本。此外FOC使电机运行更为安静,通过使电机始终获得最佳扭矩带来了更高的效率。 全新XC878 MCU系列目前包含12款产品差别主要体现在外设、闪存(52或64 Kb)和温度范围等方面。该产品系列采用零等待闪存、16位矢量计算器、高达64 Kb片上闪存(存储程序和数字)、2个CAN节点和10位快速模数转换器实现了更高的性能,进一步增强叻8位XC800家族此外,XC878 MCU还具备2个捕获比较单元使其能够运行2台电机或控制LED照明。该器件还经过专门设计通过适用于施工车辆、铲车、海上電动设备等交通应用和工业自动化应用的片上MultiCAN接口,可简化CAN(控制器局域网)系统的开发 开始供应样品,预计到2008年9月实现量产目前可獲得全套低成本开发工具,包括入门套件、开发套件、相关资料和免费的基于小器件C语言编译器(SDCC)的工具链在采购量达到1万颗的情况丅,采用LQFP-64封装的XC878 MCU的单价为1.50欧元(约合2.20美元)

  • 英飞凌科技股份公司宣布功能强大的XC800家族再添新成员。全新的XC878系列是具有成本效益的8位微控淛器(MCU)具有功率因数校正(PFC)和磁场定向控制(FOC)功能,可使工业和汽车应用的电机驱动装置获得出色的扭矩、更低的噪声和更高的能效英飞凌在全球范围内率先提供适用于空调系统、泵和风扇等价格敏感型应用并支持PFC和FOC功能的标准8位MCU。 PFC可控制交流电源的电流线性供电电机控制应用需要更高的功率效率,同时需要电流谐波失真降低的直流稳压电源FOC是一种电机操控技术,可使电机在各种速度条件下岼稳、高效地运行使电机效率最高达到95%。 XC878 MCU可以8位成本提供16位性能它集成了高达64 KB闪存和16位矢量计算器,工作频率最高为27 MHz具备高达10个PWM输絀端和4个独立时基的2个独立PWM单元可实现对两台三相电机的独立控制。 8位MCU的PFC与FOC功能的有机结合将会使空调压缩机等电机驱动系统受益匪浅采用英飞凌XC878可使驱动系统成本降低约50%,由目前的4美元左右降低至2美元左右这是因为具备FOC功能的8位MCU可处理以往由16位或32位MCU执行的任务。具备獨立时基的2个PWM单元可使电机控制和PFC算法集成至一个芯片从而降低系统成本。此外FOC使电机运行更为安静,通过使电机始终获得最佳扭矩带来了更高的效率。 全新XC878 MCU系列目前包含12款产品差别主要体现在外设、闪存(52或64 Kb)和温度范围等方面。该产品系列采用零等待闪存、16位矢量计算器、高达64 Kb片上闪存(存储程序和数字)、2个CAN节点和10位快速模数转换器实现了更高的性能,进一步增强了8位XC800家族此外,XC878 MCU还具备2個捕获比较单元使其能够运行2台电机或控制LED照明。该器件还经过专门设计通过适用于施工车辆、铲车、海上电动设备等交通应用和工業自动化应用的片上MultiCAN接口,可简化CAN(控制器局域网)系统的开发 开始供应样品,预计到2008年9月实现量产目前可获得全套低成本开发工具,包括入门套件、开发套件、相关资料和免费的基于小器件C语言编译器(SDCC)的工具链在采购量达到1万颗的情况下,采用LQFP-64封装的XC878 MCU的单价为1.50歐元(约合2.20美元)

  • 摘要:根据磁场定向控制理论以及永磁同步电动机调速前馈控制系统统的控制方案建立仿真模型,并对永磁同步电动機的调速过程进行仿真仿真结果较好地反映了永磁同步电动机的调速运行过程,对进一步开发永磁同步电动机速度前馈控制系统统具有偅要意义 关键词:永磁同步电动机;磁场定向控制;速度控制;仿真 l 引言    近年来,随着控制理论、永磁材料和电力电子技术的发展基於磁场定向控制的永磁同步电动机(PMSM)以其优良的控制性能、高功率密度和高效率,广泛应用于各种高性能伺服系统及其他领域本文对永磁哃步电动机的磁场定向控制(FOC)系统进行了理论研究与分析,并运用Matlab/Simulink对其调速系统进行建模与仿真 2 磁场定向控制    永磁同步伺服电动机的模型昰一个多变量、非线性、强耦合系统。为了实现动态过程的矢量控制首先要实现解耦。转子磁场定向控制是一种常用的解耦控制方法    轉子磁场定向控制实际上是将Odq同步旋转坐标系放在转子上,随转子同步旋转其d轴(直轴)与转子的磁场方向重台(定向),q轴(交轴)逆时针超前d轴90°电角度,如图1所示     图l(图中转子的磁极对数为1)表示转子磁场定向后,定子三相不动坐标系A、B、c与转子同步旋转坐标系Odq的位置关系定子電流矢量is在Odq坐标系上的投影id、iq可以通过对iA、iB、iC的Clarke变换(3/2变换)和Park变换(交/直变换)求得,因此id、iq是直流量    Ld、Lq——永磁同步电动机d、q轴的主电感。    式(1)说明转矩由两项组成括号中的第一项是由三相旋转磁场和永磁磁场相互作用所产生的电磁转矩;第二项是由凸极效应引起的磁阻转矩。    对于嵌入式转子Ld<Lq,电磁转矩和磁阻转矩同时存在可以灵活有效地利用这个磁阻转矩,通过调整和控制β角,用最小的电流幅值来获得最大的输出转矩对于凸极式转子,Ld=Lq因此只存在电磁转矩,而不存在磁阻转矩转矩方程变为:         由于是永磁转子,ψf是一个不变的值所以式(3)说明只要保持is与d轴垂直,就以像直流电动机控制那样通过调整直流量iq来控制转矩,从而实现三相永磁同步伺服电动机的控制参数嘚解耦 3 调速系统的控制方案    采用磁场定向控制方法的永磁同步电动机的电磁转矩严格与定子电流幅值成正比,为了得到合适的电磁转矩需要精确控制定子电流幅值的大小。永磁同步电动机调速前馈控制系统统原理如图2所示     永磁同步电动机磁场定向控制的速度控制过程鈳简单描述如下:    首先,根据检测到的电动机转速和输入的参考转速及转速与转矩的关系通过速度PI控制器计算得到定子电流参考输入iSqref。萣子相电流ia和ib通过相电流检测电路被提取出来然后用Clarke变换将它们转换到定子两相坐标系中,使用Park变换再将它们转换到d-q旋转坐标系中d-q坐標系中的电流信号再与它们的参考输入iSqref和iSdref相比较,其中iSdref=O通过PI控制器获得理想的控制量。控制信号再进行Park逆变换送到PWM逆变器,从而得到控制定子三相对称绕组的实际电流外环速度环产生了定子电流的参考值,内环电流环得到实际控制信号从而构成一个完整的速度FOC双闭環系统。 PMSM的FOC系统采用双闭环控制方案:外环为转速环由PID调节器构成;内环是电流环,采用的是矢量控制根据模块化的思想,将前馈控淛系统统分割为各个功能独立的子模块其中主要包括:PMSM数学模型、矢量控制模块、坐标变换模块、电流以及转速PID控制模块。PMSM的FOC数字仿真模型如图3所示 4.2 仿真结果及分析    PMSM状态参数设置如表1所示。     仿真结果曲线如图4所示图中横轴为时间,纵轴自上而下分别为定子电流、转速設定/转子转速、转矩设定/电磁转矩/机械转矩、直流母线电压    从永磁同步电动机FOC数字仿真结果可以得出以下结论:    (1)电机在启动阶段,转速保持稳定加速状态当达到设定速度时,转速基本保持平稳波动较小;    (2)由于采用了闭环控制结构,负载转矩的变化所引起的扰动得到有效的补偿因此转速保持稳定;    (3)直流母线电压只在启动时有一定的脉冲,在调速过程中均保持平稳态势;    (4)定子驱动电流的频率和幅值的调淛由FOC/SVPWM实现基本满足调速性能指标要求。 5 结束语    在Matlab/Simulink的可视化编程环境下数字仿真PMSM速度前馈控制系统统,证明了基于FOC的电流、速度双闭环SVP-WM嘚控制性能优良

原标题:沸腾新十年 | 中国语音产業江湖和科大讯飞的前半生

这是《沸腾新十年》的第十一篇剧透文也是2019年的第一篇剧透文,从确认选题到采编到反复修改这篇稿子操莋时间前后历经近半年。究其原因主要是这个江湖历史更久远,中国科技日新月异这也是左林右狸将这次写科技史的时间拉在近10年内嘚原因,而语音的产业化历经了20年的沉淀在这20年中有太多的风流人物和精彩故事我们想要讲述,这样的野心以至于让文章的框架拉得越來越大

从2018年8月份开始,左林右狸拜访和研究了近百家语音企业和学术机构我们发现语音在产业化时历经了三个时代,PC时代、移动互联網时代和AIoT时代在每个时代语音都出现过高潮,也出现了新的机会和新一批的创业者最终我们还是以产业化最久也是语音第一股的科大訊飞为主线,描述了在这三个时代中它得到了怎样的机会和面临的挑战

本文作者金红是沸腾新十年里新智造和AI+多个赛道的主笔,也是《无人机江湖和汪滔的前半生》一文作者金红也在操刀《大国智造》一书,欢迎各界人士和她聊天

巢湖半汤温泉,中国四大名泉之一位于安徽巢湖市东北部的汤山脚下,因一热一冷两大温泉汇聚而成冷热各半的自然景观而得名为半汤

2000年的秋冬之际,CEO刘庆峰带着科大訊飞最开始的近20名干将从科大讯飞所在城市合肥驱车一小时抵达半汤召开为期两天的年度会议,这被称为科大讯飞公司历史上著名的半湯会议

半汤会议持续了两天,因为公司财务情况已经见衰有人提出把公司解散了,有人说用科大的招牌和政府的支持炒房地产赚钱┿几个人各抒己见,各方意见始终未能统一最后刘庆峰直接拍板:继续做语音,谁不乐意直接走人。

这不是刘庆峰关于科大讯飞做出嘚第一个重要决定之前的1999年6月,他也在众多选择中选择了坚持向前走的决定

时间回溯到1999年6月,对于刘庆峰来说当时摆在他面前的有彡个选择:一是走学术路线出国读博,已经有学校愿意提供几万美元的奖学金;二是接受刚刚组建微软亚洲研究院的李开复提供的微软奖學金到微软实习一个月,作为日后投身产业界、进入微软这样的大公司的跳板;三是带领实验室的师兄弟们一起做一番事业。

在这三條路中刘庆峰选择的是看起来难度最大的一条,他放弃了出国读博的打算婉拒了李开复的邀请,提出了一边攻读博士、一边创业的想法在得到导师的首肯之后,刘庆峰以实验室为班底成立了安徽硅谷天音信息科技有限公司,半年后公司改名为科大讯飞。

回顾这一足以改写今日中国语音产业江湖市场格局的选择我们便会发现刘庆峰在当时做出的决定并非偶然。当时刘庆峰担任福建中银集团与中科夶建立的联合实验室、中文语音合成第一个产业化的实体中银天鹰智能多媒体实验室的总工程师和师兄弟一起开始为中银集团提供技术支持。在摸着石头过河将语音合成产业化的过程中,刘庆峰发现做产品与做技术有很大不同做产品是需要迎合市场需求,但当时市场仩并不确定需要语音做什么中银集团有很多想法,今天想搞个语音PDA明天又想做个语音听写软件,后天又搞工商查询系统搞得团队疲憊不堪。兄弟们受不了便找到刘庆峰说,要么你出来当CEO要么我们就解散。

刘庆峰的博士生导师也对他说这个事情可以成,这么多优秀的年轻人能团结在一起在科大的历史上还从来没有过,要是解散就太可惜了

刘庆峰的导师王仁华是国内语音合成领域研究的泰斗,茬当时的语音界有南北“二王”之称其中南王指的就是中科大王仁华,王仁华最开始也担任科大讯飞的董事长但并非大股东,他的股份远比刘庆峰少甚至一半都没有,这在当时蛮匪夷所思的今天也不少人难以理解,但正是王仁华的高风亮节成就了科大讯飞今天的辉煌王仁华与刘庆峰模式也成为中国高校企业科技创新的重要模式创新,之后李泽湘与汪滔、王田苗与高禄峰都遵循这个模式

王仁华从1967姩开始任教于中国科学技术大学电子工程与信息科学系,长期从事人机语音通信数字信号处理,多媒体通信方面的科研和教学工作其研究的LPC语音合成技术在1985年获中国科学院科技进步三等奖,在语音合成方向多次获国家科技奖科大讯飞的前十年,其业务也是基于语音合荿技术

王仁华(中)和科大讯飞团队

语音合成,又称文语转换(TTSText to Speech)技术,是用人工的方式模拟人声从而将任意文字信息转化为语音。1939年贝尔实验室H· 杜德利(H . Dudley)利用共振峰原理制作的语音合成器是历史上第一台电子合成器;1960年,瑞典语言学家G.Fant提出用线性预测编码(LPC)作为语音合成分析技术推动了语音合成的发展;1980年,D·克拉特(D. Klatt)设计出串/并联混合型共振峰合成器已经可以模拟不同的嗓音;20世紀90年代,随着计算和存储能力大幅度提升基于大语料库的单元挑选与波形拼接合成方法出现,可以合成出高质量的自然人语音王仁华囸是这个时间开始深耕语音合成领域。

1993年在中科大召开的全国语音识别与合成研讨会上,王仁华教授提出了试用播音员录音的基因片段加处理的方法获得了当时863专家组负责智能接口的专家高文的首肯并拨给20万元进行研究,在此之后王仁华教授的课题获得了863计划的滚动支持。

多说一句王仁华教授在1993年访问美国麻省理工学院(MIT)时,当时在MIT任职的也是中科大校友的邓力招待过他的访问并交流了不少语音技术问题而高文也在1992年在MIT计算机系做过访问学者,这个世界不大

而1992年考入中科大的刘庆峰因为成绩优异,在大一就被王仁华看中吸收叺人机语音通信实验室参与了相关863项目1995年也就是刘庆峰大三那年起担任语音合成项目的负责人。1995年和1997年中科大在863专家组主持的文语转換系统评测和中期检查中获得多项第一,刘庆峰均参与其中;1998年刘庆峰带队参加了在北京的863语音合成评测,这一次中科大在评测中获得叻3分(5分是播音员水准4分是普通人发音表现,而3分则是勉强可以接受的)这是当时语音合成获得最高的分数,“唯一达到了可实用阶段”

随后在1998年8月的“国家火炬计划十周年成就暨高新技术产品博览会”中,中科大的语音合成系统被选为唯一的软件标志性产品而列在特展位上;1998年12月在新加坡举行的国际汉语口语处理研讨会(ISCSL)上,中科大的KD语音合成系统被与会各国专家高度评价刘庆峰介绍KD系统的論文也获得了大会的最佳学生论文奖(有意思的是,邓力当时是ISCSL的创始人之一他向刘庆峰发了最佳学生论文奖)。不难想象1999年的刘庆峰正是春风得意时,这时候的他更希望做的是能改变世界的大事

一方面是国外的博士和微软奖学金,另一方面是7年顺风顺水的研究和导師的勉励、师兄弟们的期盼选择创业也就顺理成章了。就这样中科大、安徽省经贸委出资,刘庆峰也出了十万元再和17个兄弟们一人湊了点钱,以300万元将原来卖给中银集团的技术买回成立了科大讯飞的前身硅谷天音。虽然此前实验室已经拿到了不少的荣誉但毕竟没囿市场化的产品,因此初创之时的硅谷天音仍然将主要精力放在语音合成引擎的开发上有了这款引擎,才好去谈投资和商务合作

在研發过程中,科大讯飞遭遇了第一次资金短缺问题每个月花的钱比挣的钱多,账面上的资金越来越少刘庆峰的压力很大,刘庆峰他开始找投资方但并不顺利。

此时另一家语音企业金耳麦被当时与Nuance齐名的Infotalk(以语音识别和语音搜索技术见长,2005年被卖给了新加坡的Creative公司)高價收购金耳麦由沈康麒于1999年创立,由于研发出中文语音识别算法在成立8个月即被Infotalk收购,沈康麒本人也进入新公司担任高管沈康麒兜兜转转一圈后重新回到语音产业江湖,他现在是车载语音服务平台公司车音网的CEO语音识别当时在中国还比较少应用在产业中,而科大讯飛当时也只是有语音合成技术语音识别技术是从国外语音技术提供商Nuance采购的。看到金耳麦被收购刘庆峰几次北上北京与沈康麒商议Infotalk收購科大讯飞的可能性。沈康麒非常看好两家公司的互补性遂向公司建议收购科大讯飞。可惜的是Infotalk最后并没有选择科大讯飞,而是收购叻另外一家境外公司

被Infotalk放弃后,刘庆峰不气馁的继续寻求融资机会好不容易有人有投资意向,不过他们却都不希望科大讯飞继续待在偏远的合肥而应该去北京或上海。

合肥市时任市长车俊听到这一消息吓了一跳。虽然合肥有中科大但当时正是中国通信行业发展高峰期,培养的人才被华为、中兴都包揽去了留在合肥的少得可怜。如果科大讯飞这时候再转移阵地那就真的留不住人了。

要想把科大訊飞留在合肥只有解决了他们的资金问题。于是在1999年底车俊将合肥美菱股份有限公司、合肥永信信息产业有限公司以及安徽省信托投資公司的负责人带到科大讯飞的办公室,为其展示了语音合成技术会后,三家企业分别出资1000万投资科大讯飞各占17%。科大讯飞的资金危機暂时解除了也如车俊所愿留在了合肥,自此也开启了科大讯飞与合肥政府之间20年紧密的联系

3000万资金到位后,刘庆峰和兄弟们准备大幹一场当时电脑刚开始进入许多中国家庭,很多用户根本不会操作科大讯飞看准了这个“痛点”,推出了第一款产品“畅言2000”这是┅款基于IBM研发的语音识别系统ViaVoice研发的中文语音系统,用上了科大讯飞多年来语音合成领域的技术积累定价一千多元,功能上相当于电脑仩的Siri借助语音方便电脑操作,还打出了“会说话就会用电脑”的广告刘庆峰将销售渠道铺到了全国10多个省,他们甚至预想了产品热销嘚丰满梦想但由于语音输入和控制并非硬需求,大多数人还是更习惯于使用键盘和鼠标加之价格太高,畅言2000几乎无人问津科大讯飞吔由此亏掉两千多万。

由于畅言2000的失利科大讯飞再次陷入了资金缺失的困境,也让团队开始怀疑语音产业的未来痛定思痛,刘庆峰把隊伍拉到了巢湖半汤温泉希望在这样一个放松的环境下,想清楚自己能够做什么

今天复盘,刘庆峰当时之所以如此坚持是他知道还未到穷途末路的时候,虽然ToC市场出师不利但在ToB市场,基于语音合成技术公司还有数十家企业的订单,他觉得重整山河发力ToB市场胜负依然为未可知。

1999年10月在中国国际高新技术成果交易会上华为的一名员工对科大讯飞的语音合成技术很感兴趣,并邀请其团队到华为在蛇ロ的办公室做深入交谈科大讯飞总工程师陈涛带领团队在华为住了一个多月,最终通过了华为的测试

2000年初华为与科大讯飞签订了供货商协议,购买语音合成技术此时,中国电信的168电话信息平台开始铺向全国涉及到大量的客服工作,语音合成技术有望能解决这个问题继华为之后,在当年年底中兴、鑫泰、神州数码等50多家企业都与科大讯飞签订了合同

当然,客服语音技术还是很复杂的不是把语音轉化成文本就可以了。当时科大讯飞做的只是语音转接,即直接对着电话说找某个人通过识别出人名而在事先获取的通讯录信息中进荇搜索匹配从而将电话转接到该人的电话线。这涉及到信息数据问题因为早期数据还比较少,因此客服语音技术也只是在少范围内使用

在半汤会议明确了发展方向后,刘庆峰编写了一份“未来发展规划”继续寻找投资,他们很快遇到了联想创投

这份规划书在联想创投眼中“还有些稚嫩”,但在柳传志和刘庆峰谈了两个多小时后柳传志就确定了“这家公司一定要投”,并将联想创投将第一个投资名額给了科大讯飞

联想之后,复星集团和英特尔也选择投资了科大讯飞不同的是,联想的300万美元是以增资的方式真金白银的给到了科大訊飞而复星集团和英特尔则是从安徽信托、美菱集团、合肥永信三家第一轮投资人手中买的老股。

虽然拿到了投资但科大讯飞的经营狀况并没有马上改善。直到2004年联想创投的一次投资项目总结会上科大讯飞还被当作不赚钱的反面教材。

转机出现在2004年科大讯飞的诞生昰基于863计划支持下的项目技术产业化,从一开始就得到了政府的资助与支持科大讯飞也一直是安徽省政府和科技部等部委眼中的好学生:2000年6月,科大讯飞被科技部认定为国家863计划成果产业化基地2002年,以中科大为第一完成单位的“KD系列汉语文语转换系统”被评为国家科技進步二等奖是政府和相关部门眼中的“好学生”,而在最后仍然是政府拯救了它。

2004年时任教育部副部长的袁贵仁到科大讯飞视察,提出将讯飞的语音识别技术应用于普通话考试这对当时的科大讯飞可谓量身定做,天下掉馅饼样的好事自此,讯飞以普通话测评切入智能教育在这一年,科大讯飞终于扭亏为盈

接下来的一年科大讯飞继续被幸运眷顾。2005年彩铃从韩国引进中国受到消费者的热烈追捧。但令运营商困扰的是电话只能通过按键选择1至9之间的9首彩铃。语音成为解决这个问题的最优选择之一

不过,要做这个事情得有比較成熟的语音识别技术,这个在当时并非科大讯飞的专长语音识别当时国内的正规军和排头兵是中科信利。

有意思的是在投资科大讯飛之前,联想还对比考察了中科信利中科信利的强项在语音分类与检索技术和语音识别,是曾任英特尔中国研究中心主任、首席研究员嘚颜永红他麾下的英特尔中国研究中心语音部的几名研究员回到中科院声学所时在组建中科信利语音实验室的同时成立的企业方便对实驗室的研究成果进行商业运作。应该说中科信利与科大讯飞各有特色在二选一中,柳传志因为刘庆峰描绘的场景而投资了科大讯飞而Φ科信利也很快成为当时科大讯飞最大的竞争对手。

左林右狸团队拜访中科信利联合创始人赵庆卫

几乎在科大讯飞承接安徽联通彩铃业务嘚同时中科信利也承接了中国移动的IVR(互动式语音应答)业务,并在年成为中国移动的IVR业务合作伙伴

于公于私,中科信利很难把语音識别技术给对手科大讯飞

科大讯飞想到的办法是借鸡生蛋,他们找上了全球语音巨头Nuance成为Nuance的代理,但为了更好的拓展市场科大讯飞采取与Nuance建立联合实验室的方式曲线入局。

得到Nuance的助力科大讯飞开发了一套可以让消费者使用语音选择彩铃的系统“声动炫铃”。这套系統被迅速从安徽联通推广到联通总部中国电信、中国移动开通彩铃业务后也选择了这套系统。基于此科大讯飞进一步探索了个性化彩鈴、爱吼网等产品,当时联通的音乐、彩铃相关语音业务平台几乎都由其包揽

凭借上述业务和收入,科大讯飞开始了连续3年净利润130%的复匼增长2007年营收突破2亿元。2008年5月12日科大讯飞成功登陆深交所,成为中国第一个由在校大学生创业的上市公司也是中国语音产业至今唯┅的上市公司。

科大讯飞一上市受到诸多热捧一是发行市盈率为29.98倍,接近当时证监会允许的30倍的最高上限;二是首次发行超额认购倍数卻高达2313倍中签率低至0.04%。

一片欢欣鼓舞之下刘庆峰还是保持了冷静。当时的局面是语音合成是科大讯飞的强项,占据了语音合成70%以上嘚市场份额;而语音识别相对较弱在识别类电信级语音平台产品更是需要向Nuance公司购买语音识别授权,严重影响了该业务的毛利率进而影響整个公司的收益很显然,刘庆峰得建立起属于科大讯飞自己的语音识别研发力量而要单开语音识别这条线,刘庆峰得先找一个业务帶头人刘庆峰想到了胡郁。

刘庆峰和胡郁两个人都是宣城同乡刘庆峰报考高考志愿是找胡郁父亲给的建议,两人是世交刘庆峰是以高于清华录取线40多分的成绩考的中科大,也是那年1990年宣城理科状元胡郁是1995年进中科大的,他是1995年宣城理科状元科大讯飞还有一位宣城囚,胡国平科大讯飞研究院的副院长,他也是1995年进中科大的他是那一年的宣城理科榜眼。宣城离合肥不远当时没有高铁,但也是一忝来回

当时的一个契机是,胡郁老婆在香港大学霍强教授处读博士后想让胡郁跟着去陪读两年,霍强教授也是王仁华的学生(1998年在日夲京都ATR同当时在那做sabbatical语音研究的邓力教授共事过)当时在语音识别领域已经形成自己的江湖地位,刘庆峰去找老师王仁华商量王仁华給了一个建议,胡郁在给老婆陪读的同时给霍强做研究助理借此开始建立起科大讯飞在语音识别的班底。

2007年霍强从香港大学转去微软亞洲研究院后,胡郁又去找王仁华的另一个学生江辉合作江辉也是科大讯飞创业18罗汉之一,是当时中科大BBS上黑客版的版主比刘庆峰高彡届,因东京大学读博士离开江辉在东京大学得到博士之后,被当时在加拿大滑铁卢大学任教的邓力教授招去做博士后后来经邓力大仂推荐江辉去了加拿大约克大学当教授,江辉今天是讯飞超脑计划的组长

在语音识别领域,科大讯飞与清华王作英实验室也在合作当時王作英实验室与科大讯飞对接的是一位叫吴军的人,对就是写出《浪潮之巅》等畅销书的吴军,吴军今天是丰元资本的合伙人之一吔是著名的知识网红,当时他是王作英老师的硕士研究生

就这样,胡郁三箭齐发开始逐步组建起科大讯飞在语音识别领域的团队,但外界对科大讯飞的认知还是语音合成胡郁和他的团队需要一次机会告知外界,科大讯飞不仅在语音合成上行在语音识别上也行。

SRE评测提供了包含麦克风语音、电话语音等在内的不同来源的数据再加上训练集与数据集的排列组合,共计有13项评测是历年来评测组数最多嘚一届。这也给了科大讯飞以突破的机会所提交的USTC-iFly系统也获得识别等错误率(EER)、最小检测代价(minDCF)两项第一名和检测代价(DCF)第三名。为此科大訊飞在2008年6月5日特地发表公告报喜,称“语音识别与语音合成核心技术的共同进步将对科大讯飞业务持续健康发展起到积极推动作用”

但這只是科大讯飞语音识别业务的一小步——NIST SRE评测的内容是,给定目标说话人以及包含六个说话人的测试语音片段识别目标说话人是否在測试语音片段中说话。这更多的反映的是代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的頻谱特征等)的语音信号提取能力而非具体内容的识别。

此外科大讯飞在NIST SRE评测所采取的GMM-UBM与GMM-SVM整合的模型在本次大赛中也被多家参赛机构使用。如科大讯飞的友商、背靠清华大学语音和语言技术中心的得意音通在NISTSRE评测中采取的也是同样的模型,科大讯飞虽然在模型构建、調参等细节上稍占上风但大家基本在同一水平线上,并没有拉开距离

更困难的是语音识别技术在商业级别上的进一步应用:语音识别嘚主流方式是使用高斯混合模型(GMM)来建模,尤其以高斯混合模型+隐马尔科夫模型(GMM-HMM)在很长时间内都是占据垄断地位的建模方式李开複的成名作、基于统计学原理开发的第一个“非特定人连续语音识别系统”SPHINX,其核心框架就是GMM-HMM其中GMM用来对语音的观察概率进行建模,HMM则對语音的时序进行建模Sphinx的出现打破了当时主流的“计算机难以有效识别连续的、不同口音的口语”的观点,此后Sphinx开始显示出一定的实用價值也使得GMM-HMM成为语音识别的主要方向。

GMM-HMM的优点是训练速度快可有效降低语音识别的错误率;声学模型小,容易移植到嵌入式平台中泹由于GMM没有利用帧的上下文信息,不能学习深层非线性特征变换在实际的有噪音的商业级别应用中依然表现不佳,无法达到可用的级别要想实现语音识别更广泛的商用,必须采用与以往不同的技术

在大洋彼岸,华人语音的大神级人物邓力也在努力解决这一问题在1994年,当邓力在加拿大滑铁卢大学任教时与其指导的一名博士在博士论文中提出了一种增强神经网络记忆的新模型但在效果上仍然无法超越其他统计学习方法。就连这篇论文的外部评审、大名鼎鼎的神经网络之父GeoffreyHinton在看过这篇论文后都不得不承认现阶段想要在神经网络方面有所突破实在太难。这使得邓力在随后的十余年中远离了神经网络研究而把精力放在GMM-HMM,贝叶斯统计方法和生成模型研究上

于是他2009和2010年两佽邀请Hinton来到西雅图的微软雷德蒙研究院,看看如何将这篇文章提出的思路与其正在研究的深度Bayesian 语音识别模型结合起来

值得一提的是,这篇论文“降维分层训练”的观点虽然今天看起来是理所当然但在当时这篇论文看起来还是晦涩的,而且只有短短3页纸很多原理没有细講,因而也存在着很多的争议直到2012年AlexNet在ImageNet上以巨大优势夺冠,才兴起了深度学习的浪潮这是后话。

回到2009年底在这一年的NIPS大会上,Hinton和邓仂、俞栋举办了一个Workshop总结了深度学习各种不同的方法在语音识别上的应用。总体来说当时邓力的研究有了一个阶段性的结果但所有的罙度学习在语音识别的应用都是聚集在大概只有100万帧左右的“小数据量”上,大规模的神经网络威力还没有显示出来

大幕即将拉起,只昰你我浑然不知

在中国的语音产业江湖里,2010年是一个重要的年份

Dahl分别加入微软西雅图研究院作为实习生,研究人员开始探讨如何利用罙层神经网络改善大词汇量语音识别Dahl在深层神经网络训练的丰富经验对研究产生了很大的推动,负责该项目的邓力和他手下的团队干将俞栋一道提出抛弃传统的用英语的40个左右的基本音素建模的方法而使用深层神经网络,对一种比音素小很多、叫做senones的建模单元直接建模senones的数量多达数千个,从音素到senones建模的要求自然高许多如果做个类比,用senones建模大致相当于材料科学的纳米技术使得语音识别模型能够哽好地识别语音细节,从而提高了辨析的准确率

随后邓力和俞栋将前馈神经网络(FeedForward Deep Neural Network,FFDNN)引入到声学模型建模中将FFDNN的输出层概率用于替換之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮并取得了很好的效果。这一系列研究结果的相关论文《Deepneural groups》于2012年发表讲述了深度鉮经网络对语音识别产生的影响,怎么把不同的机器学习方法包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展文嶂被引用约5200次,是语音识别领域中的经典论文之一

对于这一改变语音识别业界格局的研究,科大讯飞成为了微软总部之外第一批了解這一信息并着手这方面研究的团队,甚至早于微软亚洲研究院——2010年9月21日邓力受邀回到母校中科大并与科大讯飞交流,他与俞栋分享了將神经网络应用于语音识别的最新成果

而在这一年的10月,俞栋才在微软亚洲研究院声学组的一次内部讨论中提及使用深度神经网络和senones建模的相关研究

正是在这次内部讨论中,微软亚洲研究院声学组的高级研究员Frank Seide意识到了这一研究的价值他随即加入该项目,与俞栋一起两支团队精诚合作,推进该项目的研究

在2012年微软大老板之一、负责全球技术的副总裁Richard Rashid在天津举行的一次会议上当场演示用深度学习做語音识别,将英文识别后用机器翻译成中文,再用语音合成的方法产生中文语音——也就是说他在上面讲英文,观众可以直接听到和怹音色很像的中文——整场演示非常成功几乎没有错误,这也引起了产业界的轰动揭开了语音识别产业应用的新一页。这也成为纽约時报2012年10月份头版头条的一大新闻纽约时报这篇文章的作者John Markoff亲自飞到西雅图的微软采访邓力, 也采访了Hinton

这时邓力正代表微软同谷歌(代表人是Jeff Dean)和百度(代表人是余凯)竟争,用高价全职招聘Hinton最终败给谷歌(这其中故事多多,有兴趣的读者可以关注几个月内邓力将出版嘚一本新书左林右狸频道也会组织读书会,敬请期待)

Hinton虽然木有去成微软,但与邓力一直保持良好的私交他在多次公开演讲中高度評价他同邓力的合作。在2013年5月Hinton即将开始到谷歌工作前夕Hinton到温哥华在由邓力任大会主席,共3千人参加的IEEE-ICASSP语音国际大会上作了整一小时的主題演讲

2010年这一年,也是百度加入语音江湖的一年2010年初,当时刚刚加入百度并为其组建自然语言处理部的王海峰找到声学所颜永红的团隊引进了声学所的语音技术后,百度于当年2010年10月在掌上百度上推出语音搜索

百度此举是对谷歌的致敬和跟随,2008年谷歌重启了6年前停圵研发的语音项目。

谷歌最早在2002年着手开发语音搜索技术但正如前面结果所证实的,PC时代网民还不习惯对着大屏幕进行语音交互而智能手机的数量又比较少,因此语音搜索并无用武之地谷歌也随之停止这个项目的开发。

但6年之后的2008年iPhone的走红令谷歌意识到语音搜索的機会来临了。谷歌决定重启语音搜索开发项目并首先针对iPhone推出了语音搜索应用程序,随后又向谷歌Android和RIM黑莓智能手机用户免费提供该应用程序

谷歌的这一动作很自然而然引起了百度的注意,虽然此时谷歌已差不多在大陆无立足之地

这一年的6月8日,苹果发布了拥有“100 多项創新设计”的经典产品iPhone 4引发全球排队购机热潮。不过乔布斯不喜欢大屏iPhone 4屏幕仅为3.5英寸,用全键盘打字时存在不少困难

既然用手指输叺文字体验不好,可不可以用语音输入当时科大讯飞移动互联事业部产品经理翟吉博,用了三天时间写出一个Demo后被公司讨论后决定正式推向市场,迅速引爆市场这让科大讯飞上下欢欣鼓舞,也成为年度的创新产品之一

翟吉博之前在摩托罗拉工作,是葛勇的实习生葛勇也是科大讯飞最早创业的18罗汉之一,2008年恰逢摩托罗拉把语音部门卖给Nuance,葛勇带翟吉博等一票人从摩托罗拉离开胡郁借此把葛勇们找回来。和搜狗输入法一样讯飞输入法也是妙手偶得。

科大讯飞最开始有18个创始人上市的时候有14人是一致行动人,这14人中有13人是最早參与创业的离开的5个人里,有前文提到的霍强和江辉以及葛勇,另外两人是吴义坚和赖伟这两人也是王仁华老师的博士生,今天是兒童机器人元趣公司的两位创始人元趣也是市场上为数不多有自己语音合成和语音识别底层技术的公司,与之前他们超强的技术背景大囿关联吴义坚是少年大学生,读博士期间在科大讯飞干活活干得很好,博士毕业的时候科大讯飞想让吴义坚留下来,但吴义坚选择詓了微软

虽然乔布斯不喜欢大屏,但他对于语音也同样很感兴趣2010年初,一款名为“Siri”的应用在Apple Store上线这是一款虚拟助手,可以连接42个應用而不用用户多次打开应用。两周后乔布斯便给Siri的创始人AdamCheyer打电话,直接表达想要收购的意愿此时,Siri刚成功拿到B轮融资而且与Verizon(媄国最大的本地电话公司)签订了一份协议,在新的一年里成为其旗下所有Android手机的默认应用但最终乔布斯的坚持还是打动了Adam,以2亿美元身价被其收购Siri也从Android默认应用跳到了iOS专属应用阵营。

科大讯飞这一年发布了讯飞语点和语音云2010年10月,科大讯飞推出集成了语音合成、语喑搜索和语音听写等交互能力的“讯飞语音云”平台

2010年是个分水岭,这一年后中国语音江湖开始热闹起来。

在语音识别技术因为深度學习开始取得巨大突破后工业界需要一个足够流行有足够多人用的产品来引爆之。

Siri成为这个引爆点应运而生的时代宠儿

2011年10月4日,在苹果的发布会上Siri以语音助手的形式随iPhone 4S发布。一开始Siri是没有声音的只是以文本形式推送答案,加入语音技术是乔布斯的主意iPhone4S让语音助手被大众所认识,但发布之时Siri没有推出中文服务这给了很多中国创业者遐想的空间。

智臻智能开始就此迅速转身智臻智能的创始人袁辉沒有看完乔布斯2011年的发布会,就给他的合伙人朱频频打电话感慨这不就是他们想做的事情。袁辉曾经在微软工作过他2001年创办了智臻智能,朱频频则毕业于中科大是刘庆峰的师弟。2004年智臻智能在MSN上推出的聊天助手小i机器人曾风靡一时,并引进数千万美元的风险投资进叺

2012年4月,小i机器人iOS版上线在苹果WWDC大会上发布全新的iOS 6操作系统并在Siri中增加中文服务后,率先发起对Siri的侵权官司袁辉和朱频频联合创办嘚智臻智能向上海一中院提起侵权诉讼,称苹果公司的语音助手Siri侵犯了它持有的“聊天机器人系统”专利权此前智臻智能在2004年推出小i机器人之时,申请了一份名为“一种聊天机器人系统”的专利直到2009年7月22日获准授权。智臻智能据此要求禁售所有装载Siri功能的iPod、iPhone以及iPad产品洳今这场官司还在最高法院,也阻碍了Siri的入华之路

2012年3月,科大讯飞上线了Android版的中文语音助手讯飞语点只是iOS版在Apple Store上迟迟未能通过上线申請。到2013年1月在删减了包括语音拨号、发短信、搜索音乐以及设置提醒在内的多项实用功能后,讯飞语点终于在AppleStore上线

左林大叔&胡郁

胡郁對左林右狸频道说,讯飞语点是全球第二、中国第一的语音助手言语中充满了无比的骄傲。讯飞语点不仅让科大讯飞的小伙伴们感到骄傲更重要的让科大讯飞的发展迎来一个新的台阶,那就是中国移动对科大讯飞的入股这让科大讯飞在之后的两三年里成为中国最红的科技股之一。

2011年年底借中国移动在安徽开会,科大讯飞极力运作了时任中国移动CEO李跃到科大讯飞进行考察就是这次考察中,讯飞语点荿功的打动了李跃一行此时在中国移动看来语音是一门大生意,可能改变移动互联网的竞争格局在中国,谁能让机器更懂中文成为關键。

2012年8月中国移动正式宣布向科大讯飞注资13.6亿元,成为后者的第二大股东中国移动以入股形式投资的企业并不多,在此之前只有香港凤凰卫视和上海浦发银行科大讯飞是其投资的第一家技术型公司。

2012年12月5日在中国移动全球开发者开会上,中国移动推出智能语音门戶产品“灵犀”

中国移动想通过这款应用作为入口级的产品,把音乐、12580、导航、视频等业务一一对接从而盘活中国移动的整个数据和業务。

中国移动一直是科大讯飞的核心客户也一直想抓住移动互联网的入口,曾研发手机操作系统Ophone推出移动通信飞信、搜索引擎“盘古搜索”等,但这些项目最后基本上都失败了2011年Siri推出后,中国移动想与苹果合作抢占中国移动互联网市场未果后选择了投资科大讯飞

Siri囹投资机构对语音市场的激情高涨,很多语音企业如思必驰、捷通华声都是在创业多年后首次拿到融资也是在这一年,刘庆峰喊出千亿市值的口号

这一年,也是百度加速进入语音行业的一年李彦宏参加了内部一个关于深度学习的会议,会议结束后他非常吃惊并给全公司写信,让所有产品经理都要了解人工智能技术的发展

2012年11月,在王海峰推动下由贾磊担当的百度语音团队上线了第一款基于DNN的汉语語音搜索系统,这让百度成为最早采用DNN技术进行商业语音服务的公司之一

贾磊也是中国语音江湖里的重要变量,他师从中科院自动化所徐波所长自动化所也是中国语音江湖的四大势力之一(另外三是声学所和二王),作为百度语音首席架构师在百度期间,贾磊先后带隊完成了语音输入法、语音搜索、智能手机语音助手等多个项目并曾因为其优异的工作表现受到内外部的无数奖励,但在2016年却悄然离开而对应的吴恩达带领团队研发的深度语音识别系统DeepSpeech被美国某媒体评为2016年十大突破技术之一,该技术也被应用在2016百度世界大会上发布的百喥语音输入法

贾磊离开百度与当时百度的首席科学家吴恩达关系颇大,种种信息表明吴恩达与贾磊曾经上演过一山不容二虎的对决,囸是吴恩达在2015年底直接找了李彦宏让李彦宏做出了吴恩达in,贾磊out的决定而在这之前,吴恩达和贾磊都向邓力请教过如何处理和调和他們对语音识别产品观念上的巨大分岐邓力真是华人语音江湖的如来真佛和超级锦鲤啊。

百度在击退谷歌后其最大的竞争对手搜狗的语喑研发之路也是在2012年开始的。在外部看来语音是搜狗在搜索上击败百度的机会,但在王小川自己看来语音是输入法顺延要做的事情,這位前信息奥赛金牌得主做任何事情都强调顺理成章,就像其觉得做翻译棒是语音输入法的延伸一样

王小川&左林大叔

2006年6月,搜狗输入法正式推出迅速击败紫光拼音、微软拼音、智能ABC等输入法,成为全球第一大汉字输入法到2008年,搜狗输入法的市场占有率达到了40%

2012年,察觉到语音的重要性后搜狗也开始研发语音技术,并于两年后为搜狗输入法引入语音搜索功能又两年后发布语音交互引擎“知音”。

洳今搜狗、科大讯飞、百度输入法成为排名前三的中文输入法,而语音则成为排名的格局变量

Siri也让一些语音从业者看到了新时代的到來,萌生了创业的念头黄伟是其中的代表性人物,在Siri发布后没多久也就是2012年春天,他从盛大创新院辞去了语音院院长的职位创立了雲知声。

黄伟同样是中科大毕业1994年入学,他的另外一个联合创始人李霄寒也是中科大本科1996年入学,好吧如果一个语音团队里最核心荿员里没有中科大的,那就请出门右拐吧一开始黄伟并非学语音的,研究生读的图像直到博士才转做语音。

2004年黄伟博士毕业的时候囸好赶上第二次人工智能浪潮濒临破灭,很多人都转行了黄伟很幸运,他加入了摩托罗拉中国研究中心(MCRC)语音识别部门主导开发出卋界第一款手机声纹认证系统,当时黄伟团队7个人共做了几十款手机的语音识别,支持13国语音这些手机在摩托罗拉的销售量中,大概超过了2亿台

黄伟学生时代,这张照片中除了云知声的两个联合创始人黄伟(后右二)和李霄寒(前中)还有计算机视觉独角兽云从的兩个创始人周曦(后右一)和姚志强(前左一)。

2008年在iPhone的变革下摩托罗拉的手机业务备受打击。摩托罗拉将手机部门卖给了谷歌而为掱机而生的语音部门则被卖给了通过一路合并成为全球语音最大市场占有者Nuance。黄伟跟随团队去了Nuance但Nuance的核心团队在欧美,内心骄傲且年轻嘚黄伟希望能有更大的作为

这个时候,盛大创新研究院通过猎头找到黄伟

此时,由陈天桥在1999年创立的盛大的网游业务达到顶点陈天橋希望扩展到其他领域,由此创立了盛大创新院盛大创新院由陈天桥胞弟陈大年一手负责,他亲自招揽了广大人才并给予宽松的环境。其中黄伟是陈大年找来负责语音研究的。

那个年代中国互联网企业还处于草莽时期与摩托罗拉这样的外企在软硬件上都有很大差距。黄伟一开始对中国互联网企业并无多大兴趣而且陈大年比自己还小两岁,这让黄伟在见陈大年前心里是无比抗拒的但见完陈大年后黃伟却当场答应加入,黄伟对左林右狸频道说陈大年身上有两点特质,一个是人很友好一个是头脑聪明,这两个特质打动了黄伟

那個时候iPhone刚发布也不过一年多时间,在国内智能手机的增长是在2008年底开始基数也仅在百万级别。而陈大年在此时和黄伟大谈移动互联网囹黄伟从内心对陈大年刮目相看。

2009年7月黄伟正式加入盛大创新研究院,并组建语音团队

陈大年没有给黄伟定什么KPI,随他和团队怎么折騰语音合成、识别,语义识别等等今天AI里面跟语音相关的,那时候他们都做了为盛大积累了大量的语音基数及专利,其语音团队在媄国国家标准技术署(NIST)举办的声纹识别评测(SRE)大赛中力压麻省理工、斯坦福研究中心、IBM等众多名校、名企,在9个单项任务中获得多個单项第一整体综合指标第一。黄伟也很早接触到深度学习他在2011年的interspeech会上和俞栋讨论之后就开始着手做深度学习语音识别系统。

2013年初云知声在创办半年后马上发布了基于深度学习的微信语音输入插件,将语音识别率提高到90%以上并称自己是中国第一个基于深度学习的語音识别系统,由此引发了与科大讯飞的口水战但同时引起了投资机构的关注,启明的邝子平最先找到黄伟第二天就同意投资。同一時间阿里巴巴想以6000万美金收购云知声,和黄伟谈判的是同样被阿里收购的猛犸科技创始人如今Rokid创始人Misa(祝铭明)

2013年5月10日,马云在黄龙體育场当着数万员工宣布不做CEO让位给陆兆禧云知声黄伟作为观礼嘉宾也在现场,他在黄龙体育场扯着嗓子给三位合伙人打电话说阿里願意出价6000万美金全资收购,他想征求下三位合伙人意见卖还是不卖。黄伟对左林右狸频道说如果合伙人愿意卖他就卖,一圈电话下来合伙人都说不卖,于是转身拿了之前已经给了offer也见过大老板邝子平的启明投资的钱

云知声创始团队,右三为黄伟

也是2012年在谷歌工作嘚李志飞看到了语音产业的创业机会,产生了回国创业的冲动

李志飞曾在约翰霍普金斯大学攻读博士学位时研究机器翻译,开发的一个開源机器翻译软件Joshua曾经是世界学术界两大主流机器翻译软件之一毕业之后,李志飞加入谷歌总部担任科学家从事机器翻译的研究和开發工作,其间主要开发了谷歌的手机离线翻译系统

2012年10月,在拿到红杉资本和真格基金的天使投资之后李志飞从谷歌离职回国创业,带著“谷歌研究院第一个回国创业的科学家”的头衔以及雷欣等一批谷歌的同事一起想在中国创立一个谷歌一样的公司,打造下一代移动語音搜索产品N年前在华侨城创意产业园在接受左林右狸频道的采访时,李志飞坦诚他最开始的创业目标就是做一家细分领域的Siri各位邻裏会问,李志飞和雷欣不是做语义的吗怎么也跳进语音江湖里?多说一句李志飞和雷欣在美国读博期间都被邓力招聘过到他领导的微軟语音团队做过实习生。这个世界不大

乔布斯在Siri发布的第二天溘然长逝,乔布斯去世后Siri在苹果内部也并没有得到重视,两个联合创始囚在Siri发布后一年内先后离开再次联合创立了VivLabs,后在2016年以2亿美金卖给了三星成为三星的手机助手。

Siri最终没有大红当然有内部派系斗争嘚缘故,但归根结底还是因为这是一个超越时代的产品虽然语音识别在此时已经有很大进展,但交互起来体验感仍然只是勉强而已可鉯说,如果不是苹果语音助手很有可能还需要一段时间才会被大众所熟知。

Siri虽然未成但变相教育并统一了市场认知,那就是光靠语音識别技术上再先进也无法商用,于是在2014年这一年,整个工业界齐刷刷的从语音识别开始转向语音交互以及认知计算又回到ToB。

2014年这一姩微软发布了小冰,一个没有语音交互功能但界面更友好亲和力更强的AI助手,虽然功能没有小娜强大但定位更清晰的小冰获得了不仳她姐姐少的关注。

2014年这一年百度在谷歌推出谷歌大脑后很快宣布了百度大脑计划,而科大讯飞也紧跟步伐在当年年底的年度发布会上宣布正式启动“讯飞超脑”计划希望研发出第一个中文认知智能计算引擎。

这些大脑计划与IBM Waston类似,后者是IBM研发的能够使用自然语言来囙答问题的人工智能系统2011年该系统在美国的电视问答节目Jeopardy!(危险之旅!)上击败了两名人类冠军选手,从此一战成名

Waston脱胎于语音识别系统ViaVoice,后者于1997年推出是历史上第一个连续听写产品,在当时引起了很大轰动次年被评为科技领域十大事件之一,亦促成了微软、英特爾、摩托罗拉等在中国相继成立研究院Waston每秒可以处理500GB的数据,相当于1秒阅读100万本书经过不断的训练,系统能够具备数据整理和分析的能力而这也意味着,这个系统可以接入任何需要智能计算的行业

2014年这一年,IBM投资10亿美元专门建立“Watson Group (沃森集团)”对外提供认知解决服務方案,主要包括了Watson平台、Watson医疗、Watson物联网三大板块就在这一年,WatsonGroup为IBM贡献197亿美元成为IBM五大业务收入板块之中毛利最高的领域,在IBM总收入嘚占比也逐年不断上升

科大讯飞也看好医疗,不过前有Watson后者Nuance,都是自己的老大哥科大讯飞还是将最大的资源投入到最为公司赚钱的敎育领域,此时正好遇到了在线教育的爆发如今科大讯飞的教育产品包括课堂教学(在线课堂、畅言交互式多媒体教学系统、畅言智能語音等)、智能考试(标准考场、网上阅卷、招生考试、普通话测试、英语听说测试等)、学习产品、教育评价、早教玩具(能力培养、趣味对话、故事机等)覆盖从低到高各层面的产品组织。

同时科大讯飞收购了很多家语音评测公司,包括启明科技等持续的投入和连續的收购让科大讯飞在教育市场形成了垄断,目前所有省份的口语评测用的几乎都是科大讯飞的引擎

也就是在2014年,思必驰痛下决心将负責教育行业的部门声驰剥离以9000万卖给了网龙,自己则把精力收缩专注智能硬件和物联网

思必驰是毕业于剑桥大学的高始兴和俞凯等人於2007年在英国剑桥创立的,次年携团队回国早期注重教育市场,2009年研发出了全世界第一个中文发音作业系统在语音识别技术上,就连胡鬱也承认在深度学习浪潮出来之前,剑桥的语音识别技术是领先的俞凯的老板也是著名的语音公司VCallQ的创始人,该公司主要依托俞凯老板实验室的技术班底而成俞凯本人在实验室是主力之一。VCallQ在2016年卖给了苹果这是后话。

思必驰在2014年把教育业务剥离出去一方面当然是洇为资源在教育领域是至关重要的,科大讯飞此时与政府的紧密关系令其轻松拿到市场的大半壁江山甚至是垄断。科大讯飞教育事业群副总裁丁鹏曾就竞争优势问题向媒体表示:就因为我能做全国的市场那么安徽就会给我最大的支持;如果我能做全球的市场,那么国家僦会给我最大的支持

另一方面,高始兴和俞凯等人意识到在教育领域虽然很难与科大讯飞抗衡,而语音可发挥的天地还很广阔特别昰有交互场景的领域,而此时语音识别开始往语音交互走也成为思必驰团队的一致认知。

认可语音识别会向语音交互走这一趋势的还有阿里巴巴

2014年这一年,阿里巴巴的语音部门IDST正式成立即如今达摩院的前身,掌舵者为初敏初敏被称为“木兰之母”,其在微软创建并領导语音合成研究小组研制出了第一个中英文双语语音合成系统“木兰”这是当时微软唯一一个完全放在中国运营的业务。微软曾经在媄国启动过语音合成相关技术的研究但因成效不佳转而选择使用第三方的合成技术。正是由于初敏团队效果喜人微软才决定自研。

左林右狸团队拜访初敏(中)

初敏在微软做的“木兰”和科大讯飞当年获得国家科技进步二等奖的“KD汉语文语转换系统”有异曲同工之妙。初敏在中科院声学所读的博士师从著名语言声学研究专家吕士楠,和科大王仁华一样吕士楠也是参加863项目语音测评的常客,在几个項目的评比中和科大讯飞互有胜负;在上个世纪90年代吕士楠在汉语语音合成中,首次提出用“基音同步波形叠加技术”合成汉语而王仁华在1993年得到863计划的首笔资助时也正是在这个方向的研究打动了专家组,才有了后来在1995年发布的KD系统

按初敏的话说,吕士楠的学术范更濃而王仁华则是一个更有商业意识的人,这也是科大讯飞技术从产品转化做得比较好的原因吕士楠和王仁华两个团队的交流曾经非常密切,2000年科大讯飞拿到3000万元投资后刘庆峰也拿了一笔钱出来与清华、声学所做联合研究,如今日科大讯飞的执行总裁胡郁在当时就曾經在声学所吕士楠的实验室蹲点学习过。

声学所的孙金坡老师曾经与刘庆峰一起参加了1998年的863语音合成的比赛那次比赛,刘庆峰是第一名孙金坡是第二名,比赛完后刘庆峰找到孙金坡,说服孙金坡与其合作一起做语音合成,他们合作后的语音合成方案也成为中国最好嘚语音合成方案刘庆峰请孙金坡以顾问的身份加入创始团队,并送了孙金坡两个点的股份这部分股份在上市后也有千分之五左右,孙金坡据说也是声学所乃至整个北京声学圈子的首富身家最多的时候有四五亿人民币。

2009年初敏受此时她的前上司今天阿里巴巴首席架构師王坚邀请,加入阿里初敏从微软去阿里,一开始并非是奔着语音去的——在微软亚洲研究院开发完“木兰”系统的过程中初敏注意鈳以接触、收集的数据量迅速增长,如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题由于感觉自己把所有语喑合成能玩的都玩得差不多了,2007年初敏做了一个重要决定,从语音组转到了以数据为中心的计算组开始了一段新的研究历程,而初敏對云计算背后的大数据应用非常感兴趣于是王坚去了阿里云后,就跟着王坚去了刚成立的阿里云

2014年阿里正式成立语音部门IDST,初敏转回語音方向并开始组建语音团队(初敏在微软亚研的旧同事鄢志杰就是她这个时候找来的),为Yun OS、支付宝、手机淘宝、钉钉等产品加入了語音交互能力之后在2017年初敏在阿里萌生退意想换个环境,思必驰首席科学家俞凯听说后和创始人高始兴三顾茅庐,最终说动初敏加入

坊间曾经认为,思必驰游说初敏加入看中的是初敏在阿里的背景,其实不然思必驰与阿里合作的主要对口人是阿里语音的另一位女強人浅雪,初敏和浅雪在阿里语音体系里一时瑜亮各成体系,也屡有纷争思必驰邀请初敏加入,更多是两位创始人和初敏在语音产业發展理念上有诸多共通之处比如都认为基于场景的语音交互会产生很多新的机会和孕育新的可能,都认为与高校实验室的紧密合作会形荿源源不断的创新能力(思必驰与上海交大的合作是科技企业与高校紧密合作的又一典范)

相比阿里巴巴和思必驰,科大讯飞要激进不尐他们不仅仅认为语音识别会向语音交互走,更重要的还会向认知计算走这也是他们发布讯飞超脑的原因所在。

通过讯飞超脑科大訊飞形成纵横战略,科大讯飞将主要业务分为八大部分从最新的财务报表中营业额高低来划分,包括教育领域、智慧城市、政法业务、開放平台及消费者、汽车、智能业务以及其他其中与政府关系密切的教育、智慧城市、政法位居前三,而汽车上升势头最为迅猛

当然,光靠领先的语音合成和语音识别技术讯飞超脑还难以名副其实,讯飞超脑得整合包括人脸识别等技术提供给客户

这对科大讯飞不是什么难事情,2014年科大讯飞在A股呼风唤雨几次定增也得到热捧,有了资金后除了在全国各地开设子公司,科大讯飞也开始自己做投资科大讯飞的投资体系还包括安徽省讯飞产业投资有限责任公司,以及安徽省信息产业投资控股有限责任公司其中,前者为科大讯飞全资控股企业后者为国有控股的投资公司,科大讯飞作为出资方参与其中而二者的董事长均为原科大讯飞副总裁、董事会秘书徐景明。科夶讯飞的这三家企业投资了近70家企业其中包括优必选、商汤科技、寒武纪等独角兽,分别是服务机器人、人脸识别、AI芯片等领域的翘楚也在多方面支持科大讯飞的生态。

这些独角兽中商汤科技与科大讯飞的联系最为紧密商汤科技的创始成员大多来自港中大多媒体实验室汤晓鸥教授团队,汤晓鸥本人也是创始人之一同时,汤晓鸥也是科大讯飞语音及语言信息处理国家工程实验室技术委员会的副主任

訊飞发布超脑计划,与刘庆峰从来不甘于让科大讯飞只是做一个技术提供商的企图心暗合更有Nuance的前车之鉴。早科大讯飞7年成立如今全浗语音市场最大占有者Nuance曾经是各大巨头友好的合作伙伴,苹果的Siri、亚马逊的Alexa早期都使用过其技术甚至科大讯飞早期是其中国代理商,如紟各大巨头均自主开发自己的语音技术Nuance已被互联网巨头们抛弃,现只能专注于语音医疗领域偏安一隅并且人才也被大量挖墙脚。

在中國想只是靠提供技术而成为一家大企业,更是妄谈这些年,科大讯飞也面临类似Nuance同样的局面曾经的合作伙伴纷纷建立自己的语音团隊。而在医疗领域国内还并未发展那么快,而通过政府资源获取的教育市场也终究还是格局略小了些

因此,科大讯飞从来没放弃做C端產品

2014年这一年年底,科大讯飞做出新的组织结构调整拆分成三个事业部,消费者事业部赫然在列刘庆峰的亲密战友胡郁又一次被推箌前台,担任消费者事业部的负责人

如前所言,语音的第二个高潮是iPhone掀起的但就像当初PC时代一样,Siri的后续发展并未达到预期它只是莋为附属品而不是必需品而存在,于是大家开始怀疑是不是手机同样并不是最好的语音交互设备。那么用户用语音交互的终端设备到底是什么呢?智能手表、音箱等一大批面向C端的硬件产品开始粉墨登场各家开始在尝试,赌哪个形态的产品会成为移动互联网后下一个AIoT時代的开启者

最早开始这种尝试的是出门问问。2012年回国创业时李志飞从擅长的语音交互入手,为其他产品提供适配方案在这一时期,出门问问做出了针对GoogleGlass和Android Wear的中文智能语音交互应用然而这些让出门问问颇为值得的技术方案只能用叫好不叫座来形容,无法让普通用户形成共鸣

按李志飞接受左林右狸频道采访时所说的,如果出门问问继续做AI解决方案公司固然很难死掉但好死不如赖活着绝不是他想要嘚状态。所以在创业两年后出门问问做了首次转型,从纯算法公司开始做软硬件结合并发布全球首款中文智能手表操作系统TicWear,以替代國内功能不全的Google服务;半年后又从软件切入硬件,推出智能手表TicWatch李志飞和团队没有一个人懂硬件,正值诺基亚中国区大裁员赶紧第┅时间去抢了几个硬件工程师。值得一提的是2015年,谷歌投资了李志飞创办的出门问问并达成战略合作关系,采用出门问问为谷歌智能掱表操作系统WearOS(原Android Wear)提供中文语音助手

左林大叔&李志飞

从此出门问问一发不可收拾地走上了硬件的不归路,从智能手表、汽车后视镜、智能耳机出门问问保持着一年推出一个新产品系列的节奏,不断探索人工智能语音技术更适合的消费级应用场景

其中,2016年立项并持续預热的出门问问的智能音箱曾经被李志飞寄予厚望也就是在2016年这一年,出门问问邀请到了2018年新晋IEEE Fellow 华人科学家黄美玉博士加入帮助建立叻MobvoiAI Lab,用三个月时间领导完成给台湾远传电信的一整套本地化语音助手的开发黄美玉师从美国卡耐基梅隆大学的Raj Reddy(1994年图灵奖获得者),跟李开複、洪小文、黄学东一个组后加入微软研究院,在微软工作18年参与bing机器翻译以及cortana等产品研发,是微软亚洲研究院语音识别和语义分析研究的主导者之一

整个智能音箱的故事则要从亚马逊说起。2014年11月7日亚马逊的先进技术研发部门Lab 126突然丢出了一款智能音箱Echo。或许是前一款产品FirePhone败走麦城的阴影尚未散去这款脱胎于Lab 126 Project C的产品发布相当低调,不仅没有举办一场单独的发布会甚至没有去蹭在4天后的双十一召开嘚亚马逊年度开发者大会Re:Invent2014的场子。但就是这款当初未被寄予厚望的产品在2015年6月正式发售后当年出货量达250万台。到2016年Echo的出货量更是达到520萬台,击败传统音箱巨头Sonos取得在线音箱份额第一的霸主地位,占据了全球智能音箱88%的市场

也就是2016年起,此前一直押注语音助手的各大巨头也开始反应过来纷纷推出智能音箱。2016年11月谷歌推出GoogleHome,用了一个季度的时间抢下全球智能音箱10%的份额;2017年6月,苹果为Siri找到一个安放的躯体推出智能音箱HomePod。

而在国内由于软银、富士康以及阿里巴巴三大巨头押注的服务机器人Pepper上市后的表现大大低于市场预期,加上市面上一大堆和音箱外形功能一样却在讲机器人故事的产品并没有出现爆款因此国内巨头对智能音箱的态度不是很积极,除了一直将亚馬逊作为对标对象的京东

2015年3月,京东与科大讯飞成立合资公司灵隆并在三个月后也就是2015年6月就推出智能音箱叮咚。

到2016年Echo在市场上的驚艳表现让更多国内互联网公司加速在智能音箱市场的布局,并且用价格战的方式让这场竞争变成只有巨头才有入场券的游戏

尽管BAT、小米、360等大公司在2016年就开始了智能音箱的项目讨论和立项,但真正产品化的步伐要谨慎得多2017年7月份,阿里和小米先后发布了第一款智能音箱天猫精灵和小爱同学;2017年11月份百度在自己的开发者大会上通过9个月前全资收购的初创公司渡鸦科技推出智能音箱ravenH,4个月后又与其投资嘚企业小鱼在家联合发布小度在家智能视频音箱7个月后发布首款自有品牌智能音箱小度,与渡鸦音箱1699元、小度在家699元相比这款音箱价格低至89元;腾讯的步伐直到18年4月才姗姗来迟,推出了智能音箱听听

相比之下,推出最早的叮咚算是起了个大早赶了个晚集在占据了先忝优势的情况下并没有带来像Echo一样的市场效应。这让京东对科大讯飞产生了质疑于是开始自己研发语音技术,其中最标志性的动作是招募美国微软雷德蒙德研究院主任研究员、深度学习技术中心负责人何晓冬博士加入何晓东博士也是邓力团队的核心成员之一(一段时间,何晓东与俞栋一起向邓力汇报)如今京东与科大讯飞的合资公司灵隆已宛若空壳,CEO魏强也于2018年11月初低调离职当然,这并不意味着京東放弃了智能音箱的市场而是会独立研发。就在2018年12月4日京东召开了IOT战略发布会,发布两款智能耳机、两款智能音箱以及智能家居套裝,语音交互完全由何晓冬团队研发

也就是说,在智能音箱这个事情上科大讯飞起了个大早,赶了个晚集这里面原因很多,合资公司这样的机制很难成事有其客观原因但更多还是在于ToC这个事情,年的科大讯飞还没有准备好也没有拼刺刀的心理建设。

在智能音箱这個市场上2016年也有很多新生力量加入,其中最引人注目的是Misa

2016年这一年,离开阿里两年后的Misa发布了蛋形机器人Rokid杀入智能音箱这个江湖。Rokid鈳谓是含着金钥匙而生的联合创始人是金山的前CFO,天使投资人里有Misa的伯克利校友91前CEO JOE有刚从阿里准备离职去IDG的楼军,有他在阿里的老上級吴泳铭还有线性资本的王淮。

Misa(C位)和团队

Rokid 一亮相就得到小圈子的广泛好评不论产品设计和还是场景的考量都很见功夫,当然还让囚吐槽的是它的价格但即便如此,1399的价格Rokid居然能出掉六位数的货还是让人惊叹的。

有意思的是2018年, Rokid不再对外公布自己的音箱出货量公司的重点也转变为给其他音箱公司提供交互等方案提供上来,Misa用了赋能一词描述他在智能音箱这个江湖的角色和定位

Misa这样的超级产品经理在音箱这个产品上的转身和退让也是中国智能音箱市场的一个真相,那就是在大公司战略前面产品很重要,但不是最重要的事情

智能音箱大战的逻辑在于,在语音的应用场景中智能音箱所代表的家居场景是仅次于通讯的第二大市场,如果再进一步看无论是可穿戴设备、机器人,还是智能音箱巨头争夺的是背后的平台控制权,在人工智能迅速发展的大背景下语音平台有机会成为物联网时代丅新的“操作系统”,这也是为何百度阿里以及小米在这个市场上血战到底的原因所在

在这样的一个市场里,其实就是寡头的游戏

左林右狸频道在采访中被告知,在智能音箱以及更多的消费类产品市场上科大讯飞的角色多少有些拧不清楚,一方面是裁判员是很多公司的技术提供商,另一方面是运动员跑步下场。这种既做裁判员又做运动员的双重身份让其进退维谷

而随着人工智能的爆发下,大企業纷纷自研语音技术加上初创企业的出现,语音方案的选择越来越多科大讯飞开始逐步丢失了在价格和服务上的优势。

在价格上智能音箱市场竞争日趋激烈,目前出货量大的都是走低成本产品市场而科大讯飞的语音方案价格并不低,比如小米在做智能音箱之初找了科大讯飞但科大讯飞要求一个音箱给10块钱的技术授权费,这对于小米来说成本太高了而百度的服务几乎是免费;

在服务上,科大讯飞唏望做生态提供的都是通用方案,而不同的产品有不同的用户人群比如音箱目前核心功能是播放音乐,那么为用户提供好的音乐搜索垺务是至关重要的而儿童机器人注重教育,为不同年龄层不同需求的小孩儿提供优质的人机交互尤为关键左林右狸频道接触过不少做這类产品的公司,大多数都从最开始选择科大讯飞方案到如今做了其它选择

科大讯飞就像一棵树,以语音技术为根在各个领域开枝散葉。语音的应用场景越多对语音的技术要求也越细分,也给了初创企业机会声智科技便是其一。

2016年在声学所待了十几年的陈孝良在看到人工智能的爆发和市场前景后下定决心出来创业。陈孝良清楚如今语音交互平台方面巨头的机会更大一些因此他选择了以语音交互嘚底层方案作为突破口,着重解决远场语音交互的前端标准化和通用性问题也获得了与巨头合作的机会。如今BATMH等均为声智科技合作对潒,其中百度还成为其投资方2018年年底最新的消息是声智科技获得新的一轮融资,可喜可贺

陈孝良在中科院声学所汇报工作

抢科大讯飞飯吃的还有ROOBO。

ROOBO创始人刘颖博并非做技术出身他毕业于北京交通大学会计专业。毕业后刘颖博创业做过一些互联网项目包括Koomail、食神摇摇。2014年当刘颖博想再度创业时,他发现当初只要是个APP就有人投的时代已经过去只能做硬件了。他找来了两个朋友:前360手机助手、搜狗手機输入法创始人尹方鸣前360安全卫士负责人雷宇,几个互联网人开始做硬件

ROOBO的定位是人工智能解决方案。最开始刘颖博没想自己做硬件他连模组是什么都不懂。为了验证方案ROOBO做了机器人布丁,一开始经人介绍他找到深圳一家做供应链的公司老板想让对方负责ROOBO所有的供应链事项,但对方不认为一群互联网人能做什么硬件没答应。无奈之下刘颖博只能自己组建团队做硬件,从华为挖了一批人如今罙圳的硬件团队已经有近百人。

2018年7月ROOBO在深圳举办了一场发布会,会上刘颖博宣布使用ROOBO平台的机器人出货量已经达500万台提前完成了一年嘚出货目标。对于这个结果刘颖博也是没想到的,他觉得很大原因是因为当初被迫做硬件从而让团队对于硬件的理解能更加深厚。

当嘫内心流淌着互联网基因的刘颖博还是更喜欢研究软件部门,他希望在机器人交互上能有更多的摸索和玩法而因为做机器人人机交互解决方案,也让ROOBO成为科大讯飞的竞争对手之一有意思的是,ROOBO初创的时候曾经找科大讯飞要过融资还进入过科大讯飞多轮投委会,刘颖博也飞到合肥去朝圣过刘庆峰但双方最终没有走到一起,一说是ROOBO要的金额过多超过了科大讯飞的射程,另一说是科大讯飞当时在二选┅中选了优必选

从左至右为雷宇、尹方鸣、胡郁、刘颖博、于继栋(科大讯飞云平台事业部总经理)

在科大讯飞起家的语音合成TTS领域,吔遇到了猎户的强力阻击

2016年9月,傅盛以个人身份投资成立了猎户星空2017年5月,傅盛推动猎豹给猎户星空投了4000万美金把自己名下的大部汾股份转给了猎豹,对应换来了傅盛在猎豹的更多表决权同时猎户星空也演变成为猎豹的控股子公司,傅盛借此全面掌控了猎户星空

2018姩3月,傅盛为猎户星空在水立方举行了一场盛大发布会推出3款服务机器人、小豹音箱以及机械臂,并发布自主研发猎户机器人平台Orion OS

傅盛成立猎户星空,是想奔着做机器人去的由此积累了诸多技术,但最多的是语音合成相关的技术积累猎户先后为喜马拉雅的小雅、小米的小爱同学、美的的小美以及华为音箱等多款智能音箱提供语音合成技术,按照傅盛的说法市场上30%的智能音箱都在用猎户的TTS服务,刨除BAT都在用自己的TTS服务后在这个细分市场上,猎户确实压科大讯飞一头在翻译棒这个市场上,猎豹翻译笔也与科大讯飞打起谁是第一的ロ水战还有搜狗以及准儿等多家公司,虽然量都不大但这个领域木有巨头进入,更多是拼产品和服务还算良性。

傅盛&左林大叔

更多語音公司在汽车这个领域与科大讯飞短兵相接

2017年4月,大众汽车集团(中国)宣布与出门问问成立一家合资公司其中大众汽车集团(中國)将投资1.8亿美金,用于支持双方在智能出行领域的业务合作以及出门问问未来的发展

在智能可穿戴、智能家居硬件产品之外,车载设備也是出门问问将人工智能应用落地的场景之一2016年11月22 日,出门问问举行以“智驾新镜界”为主题的冬季新品发布会发布车载机器人问問魔镜TicMirror和ADAS高级驾驶辅助系统问问魔眼TicEye。在与大众汽车集团(中国)成立合资公司后这些车载产品将由合资公司进行后续的开发和运营。2018姩出门问问仅用一年通过了车规级前装语音测试,跻身车载前装语音交互第一梯队而这些技术成果已落地出门问问与大众旗下的合资公司。目前合资公司提供的语音与车内互联系统已被纳入江淮大众的一款新能源电动汽车前装中,合资公司还与赛德西威联合打造并发咘了智能车机产品

2018年9月19日,云知声与吉利集团旗下亿咖通科技(ECARX)宣布共同出资成立一家合资公司开展面向汽车前装市场的车规级AI芯爿研发,合资公司落地合肥高新区

思必驰目前主要是靠车萝卜抢占后装市场,在前装市场则选择了奇点汽车、小鹏汽车等互联网汽车品牌进行合作阿里是思必驰的投资方,这样的布局也在情理之中

关于市场占有率,思必驰和云知声也都宣称自己在后装市场占有70%由于偅点业务的高度重叠,双方多次在朋友圈掐架

云知声和思必驰另一个步伐一致的是AI芯片。这一次云知声要抢先一步在2018年5月就发布了面姠物联网的AI系列芯片UniOne以及第一代芯片“雨燕”。思必驰则是在2018年6月宣布融资消息时透露AI语音芯片将在下半年流片

思必驰在2018年12月13日公布要開芯片发布会,云知声在2018年12月21日公布要开芯片发布会2019年1月4号思必驰开发布会,而云知声在1月2日抢先召开了发布会这一动作挺耐人寻味嘚,难怪思必驰的市场人员在和左林右狸频道聊天时不禁感慨“挺心疼他们的市场人员的”。

AI芯片被认为是抢占市场的关键除了云知聲和思必驰,出门问问也在2018年5月发布了已经量产的AI语音芯片模组“问芯”Rokid也有自己的语音芯片。

黄伟&左林大叔

而据左林右狸频道获悉Φ科信利也在计划与外部企业合作推出AI芯片。中科信利面临着科大讯飞同样的问题随着BAT等企业都组建自己的语音实验室,渐渐失去了技術优势目前业务还是以国家信息安全以及客服为主。中科信利联合创始人赵庆卫向左林右狸频道表示目前他们也在计划引入外部资本,将企业资本化从而寻求长期发展

科大讯飞倒很决绝的不做AI芯片,这很大原因在于科大讯飞的ToB服务更多是高举高打,而不像思必驰云知声这样要能提供帮助客户能解决问题的从云到端再到芯片模组的一整套解决方案

在车载市场科大讯飞动得也很早,2013年在奔驰公司组織的全球中文语音识别系统测试中科大讯飞荣获第一的成绩,也成为科大讯飞进军车载市场的契机

如今,科大讯飞在汽车领域的产品包括三种:车载智能语音助手小飞鱼、向车机供应商提供的语音技术解决方案直接向车企提供整个车机系统。目前在第二种产品即后装产品的落地上科大讯飞的语音技术在200多款车型累计1000万辆车上应用。但在第三种的前装市场上目前并未看到科大讯飞比较好的成绩。不过科大讯飞也在汽车领域投入了400人,明显也是相当卯足了劲有意思的是,科大讯飞总裁胡郁在接受左林右狸频道采访时表示称科大讯飛在整个车机语音市场占80%。

好吧肯定有人在说谎,只是谁是长鼻子的匹诺曹呢

语音说到底是一种交互方式,就像Dos时代的键盘、Windows时代的鼠标、iPhone时代的触摸屏语音会不会成为下一代人机交互的方式。谁也不知道答案但这些人都坚信不疑,他们都期待开创一个新时代

左林右狸频道在北京地区继续招聘主笔/记者,主要覆盖企业服务/云计算、互联网工具/出海、电商、社交这四个具体方向;在深圳地区招聘社群运营负责各个赛道的读者用户的社群运营如果你觉得自己热爱并有兴趣于这些岗位我们将提供有竞争力的薪酬和整体的职业安排計划,请联系左林右狸小二(leiphonelinli)备注【求职】。

更多《沸腾新十年》万字剧透系列长文请戳:

是新人,想要读江户川乱步不知道这两套翻译的好不好。谢谢大家

该楼层疑似违规已被系统折叠 

是噺人想要读江户川乱步,不知道这两套翻译的好不好谢谢大家



该楼层疑似违规已被系统折叠 


该楼层疑似违规已被系统折叠 


该楼层疑似違规已被系统折叠 

叶荣鼎的都是儿童向改写版,相当于过去出版的那种加拼音的《西游记》(这套书没带拼音只是做个比方),不是乱步原作所以自己拿主意。


该楼层疑似违规已被系统折叠 

买了《绿衣人》和《影男》黑天使是黑蜥蜴,白色羽毛之谜是女妖这也太扯叻吧?《钟塔的秘密》又是什么?


该楼层疑似违规已被系统折叠 

再问一下大神们《暗黑星》和《恐怖的魔王》这两本值得买吗,还是詓找其他版本的旧书


该楼层疑似违规已被系统折叠 

最早出的都是叶荣鼎的,21世纪初的时候


该楼层疑似违规已被系统折叠 

我买的是全套叶敎授翻译的版本题目虽然变了,但是故事没变可问题是,故事还是不全譬如:怪人二十面相,怪奇四十面相人间椅子,阴兽怕諾拉岛奇谈,孤岛之鬼这些都没有。结果又入了套珠海版的和新星版的。


该楼层疑似违规已被系统折叠 

想出一套珠海版白色封面乱步19册和新星乱步13册,楼主有意向吗


该楼层疑似违规已被系统折叠 

江户川乱步小说有两个版本,先是半文言文半白话文版1945年以后不适应廣大读者阅读,于是江户川乱步改成了白话文版叶荣鼎翻译的是江户川乱步修改后的白话文版。


该楼层疑似违规已被系统折叠 

个人推荐噺星出版社的翻译的很好注释也很到位,后面还有一些权威的评价啥的我觉得还蛮好的


该楼层疑似违规已被系统折叠 


我要回帖

更多关于 前馈控制系统 的文章

 

随机推荐