第二章 AI复兴:深度学习+大数据=人工智能(第6/14页)
后来到苹果工作后,我还将布鲁斯·劳埃尔雇到苹果的语音组来工作。他比我大十几岁,是我的师兄,当时似乎已经厌倦了第一线的科研工作,在语音组里工作时非常散漫,没有太多业绩,经多次打分和测评,他被列入了需要被开除、裁撤的人员名单。我当时下了很大的决心,才摆脱了同门情谊的羁绊,将这位师兄裁掉。这个决定让我痛苦,因为它违背了我心底的怜悯和同情。师兄走的那天,我告诉他,将来有任何需要帮助的地方,我都会尽量去帮他。但布鲁斯·劳埃尔显然十分气愤,他后来参加某些会议时,甚至还在自己的名片上印了一行红字——“曾被李开复裁掉”(Fired by Kai-Fu)。
Hearsay和HARPY系统之后,为了将语音识别技术从稚嫩推向成熟,拉吉·瑞迪教授从美国国防部争取到了300万美元的经费,研发非特定语者、大词库、连续性的语音识别系统。瑞迪教授希望机器能听懂任何人的声音,而且至少可以懂得上千个词汇,能识别出人们自然连续说出的每一句话。这三个问题当时都是无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员。而他也期望我加入团队,并沿着当时人们普遍认为正确的专家系统的技术路线继续努力,在这30多人的队伍里面发挥重要作用。
但他怎么也没想到,我很早就对专家系统有了质疑。我之前在奥赛罗(黑白棋)人机对弈系统中的工作让我认识到,基于数据的统计建模,比模仿人类思维方式总结知识规则,更容易解决计算机领域的问题。计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。
我尝试着脱离专家系统的研究,打算从准备数据着手,建立大型的基于语音数据的语料库,并在大规模语料库的基础上尝试基于统计模型的新方法。说起这段故事,其实还和我的另一个师兄彼得·布朗(Peter Brown)有关。彼得·布朗特别聪明,他跟当年卡内基-梅隆大学毕业的许多博士生一样,进入了那个时代科学家们最向往的几个超级乐园之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授对此非常支持。
在IBM研究中心里,彼得·布朗跟着弗雷德里克·杰里耐克(Frederick Jelinek)领导的小组做语音识别。那个时代的语音识别主流是做专家系统,可IBM里的这一小撮人却悄悄搞起了概率统计模型。其中原因说出来,就完全没有了神秘感——IBM那拨人之所以去搞概率统计,倒不是真的因为他们预见到了未来,而是因为他们一时找不到语言学方面的专家。没想到,弄一大堆训练数据统计来统计去,效果还真比专家系统提升了不少,技术曙光初现。
彼得·布朗跟我透露了IBM正在研究概率统计模型的事情,但出于保密的需要,没有告诉我任何细节。我并不知道概率统计模型是不是真的好用。但基于我在奥赛罗人机对弈系统中积累的经验,我这次选择相信彼得·布朗他们的方向,也决定顺着这个思路走下去。IBM的语音识别小组要解决的是IBM关心的听写问题,目的是要用语音识别来代替打字机,代替字处理软件,他们的应用可以先根据打字者的声音进行适应性训练,要简单不少。而我要解决的是非特定语者连续语音识别问题,预先不能根据特定语者的语音进行训练,技术挑战更大。
可怎样向瑞迪教授提出我要在他计划的30多人团队之外另辟蹊径呢?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?
再三思考后,我告诉自己,我必须向他坦承我的看法。我鼓足勇气,向瑞迪教授直接表达我的想法。我对他说:“我希望转投统计学的怀抱,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’的问题。”
出乎我的意料,瑞迪教授一点儿都没生气。他只是好奇地问:“那统计方法如何解决这三大问题呢?”
对此,我已思考很久。我在瑞迪教授面前,长篇大论地说了10分钟。瑞迪教授耐心听完,用他永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”
那一刻,我被深深感动了。对一个教授来说,学生要用自己的方法做出一个与他唱反调的研究,教授不但没有动怒,还给予经费上的支持,这在很多地方是不可想象的。
最终的结果大家已经知道了,我硬是顺着这条概率统计的道路走了出来,还走得更远更好,研究出了比IBM发布的听写系统好很多的语音识别技术,用我自己的论文宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的完败。
解雇语言学家的故事
我和同时代的彼得·布朗等研究者一道,将语音识别从符号主义时代推动到了统计时代。这可不是简单的技术换代,这同时也意味着,那些来不及拥抱新技术的研究者在转瞬之间,就会被时代的大潮淘汰。
在微软创办亚洲研究院后,2002年年初,我加入了Windows Vista团队,并组建了一个新部门,叫自然互动服务部。当时,比尔·盖茨总是对语音、语言、智能型助手式用户界面情有独钟,于是,他要求全公司在这方面的团队都加入我的队伍,从事相关研发。
那时候,我发现在一个语言小组里,居然有一个150人的团队都在做着“无用功”。在这150人的语言处理项目团队中,有一半是完全不懂技术的语言学家,而这些语言学家居然在指挥工程师的工作。负责这个团队的高管有一个“瑰丽”的梦想:通过语言学家的介入,逐渐地形成一道“语言彩虹”,一步步解决人机界面问题,让机器越来越多地可以理解人类的语言。
这绝对不行!基于我自己在语音识别领域的研究经验,语言学家所掌握的人类语言学知识与计算机如何理解人类的语音乃至语言差别甚远。微软那些语言学家几乎都在重复我所拒绝使用的类似专家系统的传统解决方案,他们既得不到任何有说服力的学术成果,也没法对实际研发进行任何指导。