8版 书评  查看版面PDF

如何打造以人为本的数据时代——读《数据资本论》

2025-10-20 来源:上海证券报 作者:◎南 芃
  《数据资本论》
  (美)阿莱克斯·彭特兰 等 著
  浙江教育出版社/湛庐文化
  周 涛 等 译
  2025年7月出版

如何打造以人为本的数据时代

——读《数据资本论》

◎南 芃

说到日常生活中的公共资源,我们很自然会想起水、电和公共交通等。《数据资本论》这本书提出,数据也是一种公共资源。数据不是简单的信息,而是一种新型的生产要素,可以推动社会经济发展。因此,人们需要重新思考数据的所有权和使用权,从而实现经济转型的愿景。

21世纪20年代初,人类同时遭遇两大关键挑战:一是肆虐的病毒重创全球经济与卫生体系;二是大数据、人工智能技术加速兴起。数字化系统成为抗击疫情的重要助力,流行病建模等人工智能应用更是崭露头角。但技术的双面性也随之显现:社交媒体借助数字手段散布虚假信息,加剧了信息环境的混乱;用于追踪感染者的手机程序,也对个人隐私权构成了潜在威胁。这些矛盾迫使人们深入思考:在社会各类运行体系中,如何让数据与人工智能技术发挥正向价值,实现合理合规的应用。

《数据资本论》这本书展示了一幅全新的数字经济图景,深入探讨了在此背景下经济和社会秩序重构的路径。本书由14位数据、金融、网络安全与人工智能等领域的顶级专家联合撰写。主要作者阿莱克斯·彭特兰是美国国家工程院院士,全球大数据专家。作者在书中运用大量的篇幅介绍了分布式系统的互操作性、生存性和可管理性,并以此为基础,探讨在经济社会的主要领域中,如何允许交易发生、如何审计交易、如何解决数据隐私的挑战等问题。尽管这部分内容对很多读者来说技术门槛较高,但是本书不仅仅是一本简单的技术预测之作,其核心价值在于描绘数字时代生产要素的重新定义和分配的宏大蓝图。

数据垄断已经成为时代痼疾

多数人都认同数据已经成为与土地、劳动力和金融资本并驾齐驱的核心生产要素,但是正如经济学家托马斯·皮凯蒂所说,真正的问题是数据掌握在少数人手中。数据垄断已经成为时代痼疾,从社交媒体到移动支付,从医疗数据到个人征信,大量的数据资源被锁在了“数据孤岛”中。个人数据资产正在被广泛使用,但是个人没有得到足够的价值补偿。作者认为这种现象阻碍了经济发展与社会进步,是时候重新思考数据所有权与使用权的归属问题了。

20世纪,工业化驱动的经济变革催生了标准石油、摩根大通等少数巨无霸企业,其影响力甚至危及到自由本身。为了抗衡这些新势力,人们选择联合起来,成立交易联盟和协作的银行机构;美国政府因此制定了反垄断法,劳动权利与银行改革的法律也随之出台。由此可见,民众的组织在平衡垄断对社会的负面影响上发挥了核心作用。因此,面对数据资源垄断问题,作者推崇以社区数据合作作为解决方案。

数据合作是指人们自愿共享其个人数据,为团体与社区的成员创造价值。不同于常规合作,共享数据能够使参与的成员形成一个有洞察力的整体,从而更透彻地了解当前经济与社会的健康状况。这类数据合作社团不仅为个人提供专家级的建议,指导其数据管理、规划和保护个人数据,而且可以通过内部分析,使合作成员受益。

作者在书中介绍了一个有关于艺术家和音乐家的数据合作社的案例。当下,移动设备和数字音乐兴起,直接导致艺术家和音乐家的收入减少。为此,美国伯克利音乐学院和麻省理工学院牵头开展的“开放音乐”项目,试图依托新技术手段和激励机制,促进音乐生态的发展。该项目的核心是开发技术解决方案:一方面将开放访问音乐元数据层的各类架构标准化;另一方面明确在分布式账本或区块链系统中,这个元数据层如何成为未来音乐相关交易的基础。

音乐行业还可以参照图书出版、汽车零部件供应链行业的开放访问范式,构建可选的创作元数据模型。所谓创作元数据,用来指代给定音乐作品的事实信息。它不包含实际音乐作品本身,也不涉及作品的所有权或版权信息。这就好比储存在美国国会图书馆的一本书目描述,并不包含这本书本身和该书版权信息。创作元数据文件附带数字签名,可从全球多个元数据存储库中公开读取,其作用主要是检测文件是否被未授权者修改。每个音乐作品都对应一个权威的创作元数据文件,这种开放访问的音乐元数据层,对降低业务交易的复杂性,削减整个音乐供应链运营成本至关重要。

作者在书中设想,要释放音乐产业全球市场的发展潜力,未来数字音乐生态系统需要建立三层架构:最底层是音乐元数据层。中间层是音乐版权、许可和版税管理层,核心是实现音乐版权归属、交易、许可证发放与跟踪,以及版税收集与分配的分布式管理。在这一层,智能合约技术有着突出的优势。生态系统的第三层是音乐虚拟资产层。该层允许将音乐作品和音乐权利作为数字代币意义上的虚拟资产予以确认。这一层将包含多个在全球范围运作的分布式音乐权利交易网络。就像由多个互联网提供商和网络组成的互联网一样,跨交易网络(即分布式账本和区块链)的互操作性,仍然是未来科技领域的重点研究与发展方向。

开放算法与隐私挑战

新的分布式技术能否让更多人享受到科技福祉?答案是明确的。在与所有人息息相关的医疗与生命科学领域,新兴的医疗IT基础架构,正是在高度可交互平台上处理各类与健康相关的数据。在这一领域中,最大的挑战来自数据隐私保护,这就需要构建一个以隐私为核心的数据理念。对此,作者在本书中提出一套包括五个层级的体系架构,分别为:应用层、开放算法层、加密数据层、隐私保护计算层、去中心化和分布式文件/分区层。

这套开放算法架构遵循这样一个原则:通过设计共享分析结果,而不是导出数据。即将算法植入数据存储库进行计算,而不是将数据从各个存储库中拉到一个集中位置进行处理。数据的导出和复制是不被允许的,除非用户请求下载他自己的数据并得到法院授权。

在这一架构下,一个重要问题随之产生:多主体间的数据授权许可。比如,一位在不同城市生活工作的患者,其医疗检查的影像文件,可能分散存储在不同的医疗机构。为提升健康领域数据授权体系的可扩展性,就需要数据提供者共同建立授权联盟。对此,书中介绍了两种适用于该场景的隐私保护计算范式:

一是秘密共享方案。作为早期密码学的基本概念之一,秘密共享指将秘密数据被加密并分割成M份,只有当至少N份碎片被汇聚到一起时,才能恢复原始数据。这种方式使得被分割的秘密数据可分布于不同物理位置,极大增加攻击者破坏系统的难度。在此基础上,麻省理工学院的Enigma项目,进一步借助区块链系统中的节点,探索新型的多方计算和秘密共享配置。这些节点不仅承担原始数据的去中心化存储职能,同时也作为计算任务的执行单元,实现存储与计算的协同分布。

二是多方计算。多方计算可为特定群体提供加密的协同或者联合计算方式,核心用途是保护隐私,而非用于相互竞争。例如,同一省市的多家医院,可借助各自掌握的个人健康数据联合计算,推断出该地区民众的整体健康状。比如,可以共同计算某类疾病患者的平均年龄,而不用公开这些患者的明文数据。在可预见的未来,这套开放算法架构在基因大数据、分子库、微生物研究等领域具有广阔的应用前景。

以人为本的生态系统

区块链与分布式账本技术方兴未艾,其发展进程中一个关键挑战,在于实现不同区块链网络之间的互操作性。回顾互联网及局域网等一般计算机网络的发展历程,不难预见,未来世界不太可能建立在单一的全球区块链系统之上。作者更倾向于认为,我们或将迎来一个由多个区块链系统构成的“群岛式”生态。

这种结构之所以必要,在于区块链网络与互联网路由域之间存在本质区别。在互联网中,路由协议和路由器的核心目标,是在尽可能短的时间内引导数据包穿越网络域。这些数据包往往是临时的,本身并不具备显性经济价值。而区块链共享账本中所记录的签名信息则截然不同,它们不仅具有明确的经济价值,更在金融系统、公共事业等关键领域中,具备重塑行业格局的潜力。

当前,在区块链技术的世界里,许多顶尖的开发平台都尝试成为开展交易的唯一平台。作者认为,这一目标在某种程度上忽视一个关键问题:互联网架构的根本宗旨之一就是互操作性。这些相互隔绝的区块链系统,类似20世纪70年代那些技术边界分明局域网。如果区块链系统和技术要成为未来商业世界的基础设施,那么在机制和价值层面实现系统间的互操作性,已是一个不可或缺的要求。设计一个糟糕的区块链系统只会增加商业风险。

当下,经济与社会正在经历一场深刻转型,从以纸质文件等物理媒介为基础的世界,迈向一个由数据和人工智能主导的时代。为了有效驾驭这一转型,构建一个由可信数据与可信人工智能组成的生态系统至关重要。然而,仅依靠开放算法远远不够,必须将“人”置于讨论的中心。因为人类既是通过算法做成决策的参与者,也是决策所影响的主体。作者有着这样一个愿景:数字资本化应该让人们更加健康,让金融系统更加包容,让社群中所有利益相关者都受益。

数字时代,如何兼顾效率与公平?如何在保护隐私的前提下释放数据价值?又如何让数字红利惠及全民?本书不仅试图回应这些问题,更希望激发人们关于数字时代社会正义的深刻思考。