11版 书评  查看版面PDF

2017年

4月26日

查看其他日期

当人类的进步模式被移植到了机器上

2017-04-26 来源:上海证券报
  《智能革命》
  迎接人工智能时代的社会、经济与文化变革
  李彦宏等 著
  中信出版社2017年3月出版

——评《智能革命:迎接人工智能时代的社会、经济与文化变革》

⊙方 军

“我们希望更多人是默默学习派。”在李彦宏等所著的《智能革命》中,看到这句对于当下人工智能热潮的期待,立刻觉得很有意思。因为围棋的人机大战、无人驾驶汽车、电视节目里的人机对话机器人等现象,人工智能(AI)或机器智能成为大众关注的焦点。但是,很长时间以来,吸引人们注意力的是“机器能思考吗?”或“机器要超越人类”之类的话题,无人驾驶汽车等探索未来应用场景的也颇受关注。百度在2013年1月就成立了“深度学习研究院”,它的确很像机器智能方面的“默默学习派”。但总的来说,来自“默默学习派”的声音似乎并不多。

预测未来的最好办法

就是把它创造出来

现在,若以某种简单粗暴的方式来划分的话,对人工智能或机器智能的关注大体上有这么四类:第一类是大众派,试图让大众理解,或分析机器智能对未来的影响,或引发大众对人工智能的恐惧。好莱坞电影和科幻作家也常在这一派里面插一脚。第二类是未来派,他们着眼于长远的应用场景。未来派当下最热门的是无人驾驶汽车。前些年很受关注的人工智能代理人(agent)也可以划入这一派,现在亚马逊的Echo智能音响也可视作一个初级的购物代理人。特斯拉创始人马斯克想做的让人类和电脑“脑机合一”,则几乎是着眼于科幻般的未来了。第三类是学术派,这一派一直非常活跃,是人工智能的主流力量。从1956年达特茅斯会议提出“人工智能”这个词,人工智能已经历几轮起起落落,如今被广泛应用的如机器学习、知识图谱、深度学习、人工神经网络以及背后的芯片技术等都有着学术界多年的研究作为基础。由于这一波的机器智能需要数据和计算能力,学术界和产业界的人才双向流动在加速,当然,当前似乎从学术往产业的流动更多一些。现在,很多人尤其有技术背景的人都在恶补人工智能、机器学习等新技术知识,学术派的成果因而很受关注,吴恩达、李飞飞等人工智能学者也享受明星般的待遇。第四类以前不知道怎么说合适,因为似乎学术界、新创公司、大公司都在做:有探索人工智能基础设施的,有在互联网产品上推荐后台应用的,有在金融等领域、安防等垂直领域做应用等。过去一两年,新创公司或大公司的人工智能项目大暴发。我觉得,用“默默学习派”指代这些公司、这群人可能很贴切。当然这么说也是因为有趣,因为“学习”这个词现在成为热词,字面意思和实际意思并不完全一致,比如深度学习、机器学习、强化学习等。

回顾互联网产业这些年的发展,我们会发现,现在大家所预想的未来,很大程度上是由上述四类人创造出来的。从搜索引擎、电商、社交、大数据、云计算到现在的人工智能,不管基础性的还是实用性的,都是互联网人最相信的那句话的产物:“预测未来的最好办法就是把它创造出来。”一般认为,这句话是艾伦·凯(Alan Kay)或尼葛洛庞帝所说的。

近年来,世人逐渐看清了,中国互联网公司在技术上已经追赶到与国际巨头齐头并进的地步了,商业模式的“拷贝到中国”(Copy to China)相当程度上也已成为过去。人工智能成为关注焦点,这又成了一个中国与美国几乎同步发展的新技术领域。比如,在机器智能的基础技术设施、在无人驾驶汽车等方面投入最多的并处于领先地位的,是全球两家搜索引擎公司:百度和谷歌。因而我们都非常关注,百度这样已在机器学习领域做了很深入的研究和应用的公司,是怎么看人工智能与机器智能的?

人工智能的飞轮与产品

去年,吴军的那本《智能时代:大数据与智能革命重新定义未来》对模糊的认识做了非常好的澄清,有助于大众了解机器智能这件事。比如吴军很通俗地解释了,今天人工智能的做法并不是外行所想象让机器像人一样思考,而是把智能问题变成大数据与算法的问题。因此,大数据和机器智能将会彻底改变未来的商业模式。而李彦宏等人的《智能革命》则更进一步强调了数据对现在的机器智能的价值,其中有个比喻把数据视为“燃料”:“人类的行为一旦被互联网以数据的形式记录下来,就成为滋养人工智能在各行各业齐头并进的燃料。有了数据燃料,人工智能的发动机就可以运转起来了。”

人工智能这个其实并不新的技术再次暴发和真正暴发,很大程度上是因为互联网和人工智能结合起来了。云计算和大数据的发展,使得人工智能和互联网终于合二为一。互联网给机器智能带来的是大量数据,在运行的过程中又产生大量数据。搜索引擎又是互联网里掌握数据最多的公司类型之一。在《智能革命》中,作者把互联网之前的人工智能技术比作“早产的心脏”,有两个先天不足——数据不足带来“供血不足”,计算能力不足带来的“心力不足”。过去十几年在深度学习等算法上也有很大突破,比如Hinton提出的增加神经网络层数也就是增加神经网络“深度”的深度学习算法,但最主要的突破还是在数据和计算能力上。今日人工智能重在从混沌数据里发现总体“模式”,进而优化生产、服务。翻译、语音识别和图像识别的进步就是最好的例子。这些混沌数据,经过人工智能识别规律,就会对人类产生巨大价值。如果从尼葛诺庞帝把“数字化生存”这个观念深嵌我们每个人的基本观念说起,互联网的发展可说经过了三大阶段:数字化,数据化,智能化。数据化的前提是数字化,智能化的前提是数据化。

在《智能革命》中,作者从搜索引擎角度提出的两点,可能对众多企业都有启发。

第一,“数据-知识-用户体验-新的数据”的人工智能创新飞轮。我理解,这个飞轮所指的是,通过机器学习的方法,我们把数据转化成知识(通常就是算法),然后通过好的用户体验变成产品,在产品的运转过程中又搜集数据,持续地往复循环、不断加强。比如说,我们对搜索引擎结果的每一次点击或不点击,实际上都产生了新的数据,这些数据又会被用于训练算法,提供更好的搜索结果。类似这样的循环其实也出现在电商中的商品推荐、新闻资讯APP的阅读、社交应用中的信息流等互联网产品中。当我们试图抓住人工智能的机会时,这个飞轮就会告诉我们产品背后的逻辑应该是什么样的。

第二,作者认为搜索引擎的开发流程和技术核心与人工智能系统的开发非常吻合,基因是一致的。李彦宏在序中说,作为一家搜索引擎公司,百度从诞生的那一天起,就已带有人工智能的天然基因:我们以数据为基础,通过深度学习提取特征、模式,为客户创造价值的开发流程和开发文化,与人工智能系统的开发高度吻合。两者都是“以数据为主,通过抽取其中的特征、模式,然后用这个模式给用户带来价值。”现在,众多公司都在考虑开发人工智能系统,但是,除了机器翻译、语音识别、图像识别等少数领域之外,我们可找到的参照物有限。而如果具体把人工智能系统和搜索引擎对照起来看,有了一个已经存在的、大家都比较熟悉的参照物,我们就可更形象、更清晰地思考。另外,我们也可以看到,百度地图、导航这样的网络地图服务,其实也有相似的逻辑。过去,人们研究的专家系统,是人工输入规则,现在的人工智能系统、现在大家说的机器学习,基本思路都是让机器在数据中寻找相关性、发现模式、形成算法,然后变成服务于人的产品。《智能革命》甚至认为,这种模式可能就是一直以来“人类进步”的方式。书中说,这种模式包括三个关键步骤:第一步,人类捕捉宇宙中的各种现象,特别是通过有意识地观察获得经验;第二步,通过计算,有效地组织、处理、提炼信息,使得人类能更深入和抽象地理解某种现象,形成知识;第三步,人类利用产生的知识认知来采取行动,与现象交互,最终实现预期的结果。

归纳起来,这三步就是:观察现象,发现规律,应用知识。人工智能还是沿着这样的模式前进,但又跨越了一大步。过去这每个过程,都需要人类的参与;眼下,我们终于可以让机器自己去“学习”了。并且,机器能从大量的混沌数据中学习和掌握的东西,实际上已经远远超出了人类的能力范围。机器能“学习”,这或许正是现在发生的变化可以称之为新技术革命的原因吧!

还想说几句的是,这本谈智能革命的书,自身就已很智能:凡是书中有图的下面写着“使用手机百度或者智能革命APP扫描图片可见VR效果”的,都可以有VR视觉效果。