第二章 AI复兴：深度学习+大数据=人工智能（第5/14页）

语音识别与第二次AI热潮

生不逢时的我

20世纪80年代到90年代的第二次AI热潮中，语音识别是当时最具代表性的几项突破性进展之一，而我自己恰恰在那个时代站到了人工智能特别是语音识别研究的最前沿。

让计算机听懂人们说的每一句话、每一个字词，这是人工智能这门学科诞生第一天科学家就努力追求的目标。但直到我从事博士研究的那个时代，语音识别才真正取得实质性的进展——很大程度上是因为我和同时代学者对传统符号主义方法的摒弃。

很多人说，我在人工智能的发展史上留下了自己的名字。这的确是事实。但就像人工智能前两次热潮中的许多研究者一样，我提出的语音识别算法虽然在那个时代处于领先地位，但距离人们觉得系统可用的心理阈值还有一定的距离。我博士毕业后，在苹果公司研发的语音识别系统就难以满足当时市场上人们对听写、输入、控制等功能的需要，很难真正变成畅销的产品。

今天回想起来，我真的有些感慨自己生不逢时。如果我晚生30年，在2010年前后读博士并从事人工智能的研究，那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构，就像今天谷歌、微软乃至国内的科大讯飞在语音识别领域所做的那样。如果我生在今天这个时代，我所开发的技术和产品一定会被亿万人使用，并深刻改变人们的生活方式。

科技发展瞬息万变，每个时代都有每个时代的领军人物和代表性的技术方向。从20世纪70年代末到20世纪90年代中，比尔·盖茨和史蒂夫·乔布斯所代表的PC时代的创业者们，缔造出微软、苹果等科技神话。从20世纪90年代末到2015年前后，谷歌、Facebook、腾讯、阿里、百度等科技巨头以及后生可畏的优步、Snapchat、美团、滴滴、小米等新兴独角兽公司，先后在互联网领域和移动互联网领域引领科技大潮。错过了PC时代的创业者，要在2010年前后去创立一家与联想、惠普、戴尔竞争的PC公司，简直就是痴人说梦。错过了互联网时代的企业家，要在今天去打造一个世界级的通用搜索引擎，就更没有任何可行性。

今天的主角是人工智能。移动互联网的浪潮尚未平息，人工智能的创投就已经进入了让创业者无比兴奋的上升期。只有顺应潮流，在对的时间做对的事情，创业才最有可能成功。

正因为如此，当人工智能开始真正在产业发展中成为核心推动力的时候，我才不无遗憾地发现，如果晚生20年，如果在今天这个时代到来前夕才开始做人工智能相关的研究，那么，我也能在一个对的时代站到科研第一线，享受科技风口带给前沿研究者的巨大机遇与挑战。

当然了，这样说有些过于机会主义。而且，今天的人工智能热潮离不开此前数十年中几代研究者的耕耘与铺垫。我当年毅然摒弃符号主义学派的方法，选择使用统计模型破解语音识别难题，将识别准确率提升了一个层次，这与今天的研究者们在统计模型基础上引入深度学习方法，真正将语音识别提升到实用化的高度是一脉相承的。这数十年里，语音识别在技术选型上的波折与起伏，不正是人工智能技术螺旋形上升、发展的一个缩影吗？

语音识别的研发故事

和其他人工智能技术相仿，我亲身参与的语音识别技术也历经了数次更新换代。

早在20世纪70年代，语音识别就曾经有过一些技术突破，小小地“火”过一阵子。有趣的是，今天异常成功的深度学习技术，当年曾在语音识别领域品尝过失败的苦涩。

在卡内基-梅隆读书时，我有个同学叫亚历山大·万贝尔（Alex Waibel），他当时就跟目前在深度学习领域拥有绝对权威地位的杰弗里·辛顿（Geoffrey Hinton）合作，将人工神经网络应用于语音识别。但很遗憾，亚历山大·万贝尔也属于生不逢时的类型，当时基于人工神经网络的深度学习技术受限于计算能力和数据不足这两大痼疾，远远达不到哪怕是可以演示的效果。我当时就很看不上亚历山大·万贝尔他们的研究，觉得在当时条件下不可能有实质性的突破。现在想想，要是我们不是在20世纪80年代，而是在今天从事基于人工神经网络的语音识别研究，那该是一件多么幸福的事！

当年做语音识别，有不少技术流派，也有不少精英参与。有一对夫妻，名叫詹姆斯·贝克（James Baker）和珍妮特·贝克（Jenet Baker），他们开发了名为“龙”（DRAGON）的语音识别技术，并一起创立了龙系统技术公司（DRAGON Systems）。之后这家公司被荷兰公司Lernout&Hauspie收购，然后Lernout&Hauspie又被卖给了著名的Nuance公司（Nuance Communications，当时叫Scan Soft）。Nuance公司是今天欧美事实上的语音技术领导者，Nuance公司的语音识别产品线中至今还保留着“龙”（DRAGON）的品牌。

另外一位著名的语音识别研究者是卡内基-梅隆大学的布鲁斯·劳埃尔（Bruce Lowerre）。他也是师从我的导师——图灵奖得主拉吉·瑞迪教授从事语音识别研究的。20世纪70年代，在拉吉·瑞迪教授的领导下，卡内基-梅隆大学研发出了当时世界上最好的两个语音识别系统，早期的一个叫Hearsay，稍晚的一个叫HARPY。

Hearsay是个很可笑的系统，我们当时管它叫“黑板架构模型”（blackboard architecture model）36。技术上讲，它其实是专家系统的一种。拉吉·瑞迪教授和他的学生们把根据语言学知识总结出来的语音和英文音素、音节的对应关系用知识判定树的方式画在黑板上，每次从系统中得到一个新的发音，就根据黑板上的知识来确定对应的是哪个音素、哪个音节、哪个单词。如果黑板上的知识无法涵盖某个新的发音，就相应地扩展黑板上的知识树。这样的系统严重依赖于人的语言学知识，基本上无法扩展，只能识别很少的一组单词，也无法适应不同人的语音特点。

布鲁斯·劳埃尔觉得Hearsay完全不靠谱，他转而用自己的方式改进专家系统，做出了名为HARPY的语音识别系统。布鲁斯·劳埃尔的思路是把所有能讲的话串成一个知识网络，把每个字打开变成单独的音节、音素，然后根据它们的相互关系，串联在网络里，并对网络进行优化，用动态规划算法快速搜索这个知识网络，找出最优解答。但因为HARPY系统的本质还是专家系统，其可扩展性和可适应性并没有好到哪里去。布鲁斯·劳埃尔的努力也无疾而终。