张子阳的博客

首页 读书 技术 店铺 关于
张子阳的博客 首页 读书 技术 店铺 关于

数据之巅:大数据革命,历史、现实与未来

2018-10-18 张子阳 推荐: 5 难度: 1

这本书是2014年出版的,我到现在2018年才买来读,已经重印了30次了,可见还是很受欢迎的。这是一本大数据人文方面的书籍,没有涉及具体技术方面的内容,非技术领域的读者也可以无障碍阅读。书的名称是“数据之巅”,其实我觉得“大数据简史”可能更适合。因为它主要是从美国建国之初的人口普查,讲到当下的智慧城市、云存储和云计算。

这本书的主题尽管是围绕着数据的产生、收集、统计、应用来讲述的,但是作者的知识面比较广,尤其是对美国政体和历史了解很多,因此做了很多的拓展,可以学到些相关的其他知识。

作者按照时间顺序,将大数据的发展划分了几个时代分别讲述,同时穿插了很多其他知识:

初数时代:这个时代直到后面的抽样时代,和现在的大数据比起来,只能算“小数据”。但是在当时,这几乎已经是最大的数据了。人口普查的诞生,根据每个州的人口比例来决定众议员的议席数量。因为议席数是整数,而人口比例是小数,小数该如何取舍产生了很多不同的算法。

民主:少数服从多数的票决制,将人群分裂为了“少数”和“多数”,从这个角度而言,民主导致了分裂。
共和:如果遵从民主,那么普通大众(多数人)拥有更多的立法权,就会通过投票剥削富人(少数人)的财富,形成“多数人的暴政”。因此,社会要和谐发展,在贯彻多数人意见的同时,也要保护少数人的利益。

内战时代:人口普查的结果显示北方州的数量和席位将会超过南方州,在北方的反对下,奴隶制迟早会被废止。谢尔曼根据人口普查上显示的数据,哪里粮食比较充裕物资比较富饶,来制定行军路线,在没有后援补给的情况下孤军深入,攻占了萨凡纳。

对林肯而言,南北战争的主要目的是维护国家统一,废除奴隶制并非初衷。

镀金时代:数据就是社会规律的载体,统计就是发现这种规律的手段。1865~1900,成立了农业统计局、人口普查局、劳工统计局和经济分析局,不仅发布原始调查数据,还发布经过复杂运算的指标,例如生活成本指数、工资指数等。人口普查催生了技术创新:因为人口的增长和问卷项目的增多,如果按以前的方式,普查要八九年才能完成,而此时普查的结果和现实之间又发生了滞后。霍尔瑞斯为了解决这个问题,发明了打孔卡片制表机,可以读取纸片是否有孔洞(即某项是否填写)。这个机器也就是二机制计算机的雏形。霍尔瑞斯的这个公司,就是IBM的前身。市场需求是真正的创新动力,当需求成为越来越迫切的现实,重大的技术突破就一定会产生。

进步时代:这个阶段主要是量化。在法律上,使用数据和事实来证明立法必要性和合理性的做法,被称为“布兰代斯诉讼方法”。使用成本收益分析法来作为决策的依据。进行成本收益分析就需要对成本和收益进行量化,这里就遇到一个难题:如何对生命进行量化?一种方式是通过问卷调查,了解人们为降低生命风险而愿意支付的金额,从而可以计算出大众眼中的生命价值。可见,最纠结的地方,依然是量化和计算的方法。

这里引申了一个很有意思的事情,就是中国发改委的某位官员发布的“中华民族复兴指数”为62.74%。这个结果宣布后,引起了争议和哄笑。这证明我们的社会还缺乏这种量化的意识,任何的指数都是依据某一模型作为“尺子”来得出结果的,模型可以不够准确,但可以不断摸索和优化,总比没有要好。

抽样时代:民意调查,通过对一少部分人的问卷调查,来预测大选结果或者是电影票房。通过在生产过程中的抽检,提升产品质量。这节主要讲述了两个人物的故事,一个是盖洛普,从政治领域的大选预测到商业领域的市场调研;一个是被称为“质量管理之父”的爱德华兹·戴明。日本制造崛起,很大程度上源于戴明的工作,日本也设立了“戴明质量奖”。

从戴明的这个故事上,可以看到日本崛起的重要原因:对待先进文明的态度。认识到自己的不足,坦荡面对失败,真诚地向西方学习。

开放时代:政府公开其掌握的部分数据,或者要求企业开放其部分数据。例如,当立法要求企业开放其排放量时,因为受到公众的监督,可以起到更好的环境保护效果。数据开放能够促进竞争,例如汽车的侧翻率,对于做得好的车企,将其作为卖点去宣传。911事件也促成了更多数据的开放,因为当事件发生时,没人能立即准确地说出楼内会有多少人。2013年,奥巴马签署了政令,明确规定:未来政府信息一经产生,其默认的形式就是开放的、机器可读的。在大数据时代,公共决策最重要的依据将是系统的数据,而不是个人经验和长官意志。

大数据时代:成因:1、数据存储成本的急剧下降;2、社交媒体推动了数据的爆发性增长;3、通过数据挖掘等技术,人们使用数据的能力增强。这里其实少了一项,就是各种大数据相关开源项目的快速发展,例如Hadoop、Spark等。这一部分,作者讲述了很多现阶段的应用,包括给产品增加传感器,记录其出厂后的使用状况等。

这部分,作者也提到了《今日简史》中提到的失业问题。但是从另外一个角度:Instagram,拥有3000万用户,被facebook用10亿美元收购时,公司只有13个人;WhatsApp,拥有4亿用户,在被facebook用190亿美元收购时,只有53个人;facebook本身,有10亿用户,全公司不足2000人。而被数字化冲击,倒下的柯达,雇员最高时有15万人。本次信息化革命,与之前的工业革命化不同,并不需要那么多的人,所以会造成很多的人失业。但是这里作者是跨行业,将互联网与制造业比对,所以有点牵强。

智慧城市:这一部分,作者主要讲述了IBM提出的智慧城市,以及对国内智慧城市先行者神州数码的一些访谈。其中包括开放数据,构建公共服务平台等。

这种大数据人文类型的书,其实看上两三本,明白未来的一个大的趋势就够了。因为都是在一个比较高的视角上做概述,很难和当下遇到的具体现实问题联系起来。比如说:目前系统已经采集了不少数据,这些数据要如何更好地发挥作用。这些要通过阅读其他的书籍来获得了。

感谢阅读,希望这篇文章能给你带来帮助!