03 在大数据与深度学习中蝶化的人工智能(第6/8页)

而机器学习的方法大相径庭,科学家不会预先编写猫的定义,而是让计算机自己去寻找。科学家只是把图片大量“喂”给计算机,让计算机输出标签——是猫或者不是猫。在识别猫的神经网络中有无数的通路,正如人的脑神经一样,每个通路都会输出自己的结果,如果答对了,科学家就会给这条通路加权(可以理解成亮绿灯);答错了,就降低权重(可以理解成亮红灯)。经过足够多的尝试,如用10万张各种猫的图片做测试之后,那些得到加权的神经通路就组成了一个识别装置(一组复杂的函数联结)。然后在没有科学家告诉它识别结果的情况下,也可以识别出新的图片中的猫来。训练数据越多,这个函数集合就越复杂但也越精确。

这就是“监督学习”——依赖大量有标签的数据。吴恩达领导的识猫项目甚至可以从零开始学习,不依赖标签就可以辨识出猫。当研究者向神经网络展示了几百万帧静态的猫图片,神经网络自己就获得了一个稳定的模型,从此,它可以和所有的儿童一样,毫不犹豫地识别出猫的脸。

吴恩达的博士研究生夸克·维·乐为此撰写了论文,表明机器学习同样能识别原始的无标签数据,并建立自己的知识模式,它的意义绝非只在于识别猫。

二十多年前,凯文·凯利以“蜂群效应”开始了杰出的新科技著作《失控》的叙述。他以此预测了分布式计算等新技术的出现,那时他可能还没有看到“蜂群效应”中蕴藏的机器学习原理。每一个蜜蜂的运动都是随机的,但是蜂群总能向着一个方向飞去。大量蜜蜂各自的行动(输入)汇总成一个总的运动(输出),中间的逻辑(函数)就是“蜂群效应”。计算机神经网络里的信息运动就像超音速飞行的蜂群采集着数据花粉。在它们看似狂乱的飞舞轨迹中,一张猫的脸庞凸显出来。百度大脑识别猫的能力已经远超人类,它甚至能够精确区分不同种类的猫。

所以对人类而言,机器学习往往在自己的“内部”形成一个“黑箱”。有人警告这种超越人类理解的黑箱会带来危险,因为我们不知道机器如何思考,是否产生了危险思维。不过更多时候,深度学习会给人带来意想不到的惊喜。

深“度”往事

百度语音识别开发团队的刘洋工程师说过一件趣事:一位语音团队成员在家测试语音识别程序时,无意间清唱了几句歌词,然后歌词竟然被准确识别了出来。这令他很吃惊,其他公司的语音识别技术都还做不到这个事情。而百度团队也并没有针对清唱这种形式做过训练,也没有制定过这个目标。系统怎么做到的他们也不知道,只能说训练数据达到了足够大的程度,程序在不断训练、学习的过程中,自己修得了这项令人称奇的技能。

人们对世界的变化往往后知后觉。在没有深度学习的日子里,世界似乎也一切正常。但有些看不到的代价在被一些人默默承受。周克华这个连环杀手十多年间神出鬼没,为了擒获他,公安部门调集了几乎所有的视频监控材料要发现他的踪迹。那时候公安干警怎么检索视频?全靠肉眼去看!几百甚至几千个小时的视频一段段去看,有的干警甚至累昏在岗位上。而基于深度学习技术的视觉识别将改变这一切。目前先进的监控系统背后都有强大的人工智能支持,在经过大数据训练之后,可以瞬间从视频里识别出人脸、车牌、车型等,并且加以语义化,方便人类检索。然后只要给计算机几张嫌疑人的照片,神经网络就可以飞快地从海量视频中把与嫌疑人有关的镜头都找出来供人类参考。安防企业宇视科技就开发了这样的智能摄像系统,再结合百度地图,就可以迅速定位嫌疑人或者车辆的运动轨迹。

深度学习在许多用户看不到的地方改变了我们的生活。为了采集和维护地图信息,需要通过采集车拍摄沿路的图像。传统的采集车上要坐两个人,采集过程分为内部作业和外部作业两部分,外部作业就是要开车出去,把沿途的东西都录下来。除了录像,副驾驶要负责用声音记录,每经过一个地方,要说前方这里有一个探头,那里有一个红绿灯,这里是四车道,左转、直行、右转……这是传统的方式,就是一定要把所有看到的东西通过录像和声音的方式记录下来,然后再把数据存储寄到数据处理中心。数据处理中心负责内部业务的人员再一分钟一分钟地去记录比对资料,最后把路面上的这些元素在地图上标识出来,这基本上是一个劳动密集型的工作方式。

图3-4 百度地图采集车

而应用了智能图像识别技术以后,我们先通过深度学习训练机器去辨识红绿灯、车道、探头等路面元素,之后我们只需要将沿路拍摄的全景图像直接交给机器辨识,就能得到完整的地图信息。这就极大地节省了人力,也极大地提高了效率和准确性。

深度学习除了软件算法,还有一件关于硬件的往事堪称佳话。历史上有很多发明在后来的应用中偏离了初衷。比如作为炸药的硝酸甘油可以用于心脏病急救,为了发明战略物资橡胶的人工合成替代品,结果却造出了橡皮泥……在深度学习领域,GPU的作用也被改变了。GPU本来是显卡,用来渲染图像,给图形计算加速,后来却成为深度学习的主要硬件。因为显卡芯片具备比CPU更强的浮点运算能力,原本就用于处理图像这种矩阵数据,非常适合机器学习领域对数据的计算。早期当吴恩达团队率先使用GPU进行机器学习的时候,很多人并不理解。不过今天这已经成为主流。

但最深的往事还是来自搜索引擎。

搜索引擎:人工智能的命运细线

对于今天的中国网民来说,遇到问题“百度一下”已经成为一种习惯。与百度今日的影响力和规模相对的,百度在人工智能领域的专注反而引起一些不理解。更专业的疑问是:电商、游戏、社交、通信……从PC到移动互联设备,无数个风口过去了,百度为何只对人工智能情有独钟?

问题的答案可能与很多人的思维相反,与其说是百度选择了人工智能,不如说是人工智能选择了百度。这是百度基因里的使命,辜负这个使命,会是百度、中国甚至世界的损失。

一切都源于搜索