4版 书评  查看版面PDF

2020年

9月14日

查看其他日期

别让“缺数症”影响我们的思维和行动——读《数商》

2020-09-14 来源:上海证券报
  《数商》
  涂子沛 著
  中信出版集团
  2020年7月出版

⊙潘启雯

一道简单的数学题:一个球拍和一个球的总价是11美元,球拍比球要贵10美元。那么球是多少钱?大多数人会毫不犹豫:1美元!但这明显是错的。根据一项研究,哈佛大学、麻省理工学院和普林斯顿大学中竟有50%以上的学生也给出了这个直觉性的错误答案。该数学题的正确答案是:球拍10.5美元,球0.5美元。这个事例证明了,我们并非如自己想象的那般理性智慧,甚至缺乏“数据”敏感的人往往更易犯“想当然”的错误。

数据,自古就有,人口普查、农业统计、军事战争……数据虽小,却有助于治国安邦。在汹涌而来的现代智能时代,数据正在扩展出新的边界,拥有新的内涵。我们正在进入一个“数据不是一切,但一切都将变成数据”的全新时代。曾以《大数据》《数据之巅》《数文明》等著作为公众所熟知的涂子沛,在他的《数商》中,借助全新研究成果,创造性地提出了一个全新的概念——“数商”,即对记录数据、组织数据、保存数据、搜索数据、分析数据、控制数据等以数据为对象的能力水平高低的一种衡量体系。作者认为,“读数”的技能就像“读字”的技能一样重要,只要增强对数据的信仰和洞察,学习掌握数据空间的新工具,每个人都有可能从数据中释放出“数能”和“数力”,进而“为己所用”。

让地图“开口说话”

作为中国研究大数据的权威专家,涂子沛在《数商》中所谈论的“数商”,不是以“计算”为中心的数学,而是以“记录”为中心的数据科学。他详细谈到了商人、天文学家、医生等各色身份迥异的人物,是如何通过发挥自己的数商潜能,改变了社会的走向和历史的进程。

涂子沛笔下的约翰·斯诺就是其中之一。斯诺不仅是英国麻醉学家、流行病专家,更是一位数据英雄。在工业革命时期,英国人发明了抽水马桶,但当时并没有一套与之相配的现代污水处理系统。恶劣的给排水条件导致饮用水和污水互相渗透。后来人们才知道,正是这个原因造成了霍乱的大流行。但是在霍乱爆发之初,社会的主流观点是城市里恶臭空气才是霍乱的源头。直到斯诺出现,这个错误才得以扭转。

1831年,伦敦爆发了第一次霍乱。斯诺虽然只是一名麻醉医生,但是医者仁心,他开始关注研究这种病。直到1848年,伦敦暴发了第三次大霍乱时,斯诺发现霍乱患者的最初症状都是腹泻呕吐,由此断定,霍乱一定是经口腔进入肠胃的。他推测这极有可能是因为人们喝了不干净的水,但受限于当时医疗技术水平,斯诺无法说服身边的人相信他的判断。

凡是表面看起来普通平常的事物,要对它们的来龙去脉做出令人信服的解释、分析和证明就越难,越需要具有非凡的能力和思想。斯诺需要的,显然是更多的证据。他深入病区,挨家挨户敲门询问患者与饮水有关的信息。他发现了一个惊人的事实,从1848年至1849年霍乱爆发期间,伦敦市共有7466人死亡,其中4001人都居住在泰晤士河南岸,这就意味着南岸的死亡率是市中心区的3倍,而伦敦西边和北边的死亡率仅仅是0.1%。

斯诺的调查数据表明,饮用A公司水的家庭有1263人死于霍乱,而饮用B公司水的家庭只有98人死于霍乱。为了使数据更具说服力,斯诺又以每万户的死亡人数作对比,结论是饮用A公司水的家庭,每1万户死亡人数约为B公司的8.5倍。

这究竟是什么原因?斯诺又追踪了两家公司的水源,他发现A公司在流经伦敦市中心的泰晤士河下游取水,B公司在上游取水,而当时的泰晤士河,已经被霍乱患者的排泄物污染了。

有了数据作为研究支撑,斯诺开始做可视化分析。他在地图上用记号标注了死亡案例,每死亡一人标注一条横残。最终地图“开口说话”,显示大多数病例的住所都围绕在宽街水泵附近,霍乱是通过饮用水传播的。于是移掉了宽街水泵的把手,霍乱最终得到控制。这是一个非常典型的数据可视化案例,其直观且有力地证实了霍乱的传播与水的关系,从而帮助人们迅速抓住数据背后的规律性问题。

斯诺给后代所展示的,不仅是大无畏的英雄行为,还有一个高数商的抗疫思路。斯诺的做法,在当今的智能时代被称为“数据可视化”。它是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和发展趋势。在大多数情况下,数据都没有现成的,搜集数据就像在风中奔跑,但对类似斯诺等高数商的人,他们的共性是:愿意展开搜集数据的行动,愿意为之付出极大的努力,包括精力和时间,搜集数据所用的精力、体力和时间,可能是分析数据的数倍之多。

挖掘海量数据背后的关联

大数据的出现,首先是一种技术现象,但它又绝不仅限于技术领域,它将影响人类的决策流程、商业模式、科学范式、教育理念、生活方式和观念等。数据将日益和人的日常生活、情感,甚至人本身融合在一起。

大数据突破了传统样本采集方式的数据规模局限,从而得以在很大程度上采用全样本海量数据开展分析,因此可以发现隐藏在海暈数据背后的线索性信息。换言之,大数据分析关心的不是“因果逻辑”,而是海量数据背后的“关联关系”。涂子沛研究发现,一个典型的案例就是“啤酒+尿布”的故事。

尿布和啤酒,听起来风马牛不相及,再有想象力的人也很难将两者联系在一起。经过跟踪调查,有研究人员终于发现事出有因:一些年轻的爸爸经常要到超市购买婴儿尿布,有30%到40%的“奶爸”会顺便买点啤酒犒劳自己。沃尔玛发现这个数据规律之后,对啤酒和尿布进行了捆绑销售,果然,销量双双增加。

“啤酒+尿布”这个例子的核心在于人们的购物存在规律,这些规律之多,之微妙精细,是坐在办公室里想象不出来的。其实,即使一个街角的小杂货店也有它自己独特的购物规律,就看你能不能发现。一个超市越大,商品越多,其规律也可能越多。很显然,商场的任务就是不断把商品的“自由组合”变为“最佳组合”,让消费者可以一次把它们都买走,这就是各种购物网站不断推出各种让人眼花缭乱的捆绑销售、组合套装的原因。注意,这里是不断调整,不断推出,而不是一成不变,这当然离不开算法的助力。

涂子沛认为,算法是我们对大数据进行分析和挖掘的重要工具,仅仅靠我们人类的眼睛和大脑,很难在杂乱无章的大数据里发现有价值的线索。大数据算法又叫“挖掘”,比喻在海量数据中寻找有价值的规律,就像开矿凿金一样困难。你可以这样理解,大数据就像座矿山,算法就是我们在矿山中进行开凿的金刚钻、挖掘机。

以“数商”维度审视“李约瑟难题”

以“数商”为引子,涂子沛还反复讨论“李约瑟难题”:“尽管中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?”

对此问题的争论一直非常热烈。“缺乏古希腊的科学哲学思想”“缺乏解放普通劳动者的发明思想” “双方文化核心的差别”“东西方思维方式的差异”……各种答案曾让人应接不暇。涂子沛则从“数商”维度给出自己的答案。

早在1919年,胡适写下了著名的《差不多先生》,进而衍生出了“差不多”文化概念:某些中国人长期具有“凡事差不多,凡事只讲大致如此”的习惯。

著名历史学家黄仁宇也曾指出,西方在研究社会经济史时,喜欢使用计量经济学的方法,用数据来说明问题。要做这样的研究,其前提是必须有某一时期相关因素的准确的统计资料。黄仁宇认为,古代中国与西方的城邦制社会不同,古代中国的各种决策往往以道德准则为出发点,各种相关数据要么没有统计,要么就是严重失实,无法做到“数目字管理”,这就是中国数字文化长期缺失的重要原因。

涂子沛认为,胡适和黄仁宇的看法,并不是一家之言。现代著名思想家阿伦特也曾经对比过中国和西方国家在思维方式上的不同。她的结论是:西方人是“词语思维”,中国人则是“形象思维”,而形象思维不是基于逻辑的推理性思维。

这个道理就如同油画和国画,油画写实,国画写意,油画的每一笔每一处光与影的处理都要精确,而国画的山山水水,若有若无,似乎只有在梦境中才有。

涂子沛对比研究发现,我们过去可能一直在用国画的艺术思维对待科学技术。这表面上是个科技问题,但它的根源,不在于科技,不在于经济,甚至不在于政治,而在于文化。一个国家的经济、政治和文化的关系就像海的不同层面。海平面时刻都处于变化之中,有时波涛汹涌,有时风平浪静,这就好像一个国家变化多端的经济层;在海洋的中层,水面趋于平稳,这是政治层,政治制度一旦确立,就不容易改变;在海洋的底层,静水流深,更加平稳,非常难以改变,这就是文化层。一个国家,文化的改变最难,但这恰恰是其他层面的基础。正是这种文化上的特点,现代科学最终在西方国家起源、蓬勃发展。

应该说这个遗憾发生的历史阶段已经过去了,但是在今天的大数据时代,我们不能再把大数据仅仅当作一个科技符号,而要把它变成一个文化符号。善“数”者成,大数据正在助力当下中国的制度创新、科技创新、文化创新。如何让“尊数、爱数、用数”融入中国人的思维方式和文化血脉?或许还有很长的一段路要走。