2012年,有一本书被历史学家许倬云称其作者“为华文世界开创了一个重要话题”,并被媒体评为当年度中国十大好书,它就是涂子沛的著作《大数据:正在到来的数据革命》。
时隔两年,涂子沛的又一部新书《数据之巅》呈现在读者的面前。昨天,涂子沛来到 “新安读书论坛”,为合肥的读者描述了大数据时代的生活,并提到了“中国的人口重心在合肥”的观点。
话题一开始,涂子沛就举了德国一场足球比赛有6000万条数据记录和亚马逊“预判发货”的例子来说明。在他看来,世上本没有数,大数据的3大来源分别是测量、记录和计算,大数据等于传统的小数据加上现代的大记录,而且,人类的政治、经济和学术生活是靠对数据的规定、解释和探索来展开的,但是要用数据说话,而数据本身不会说话,人们因此会争夺对数据的解释权。现在,网上搜索、数据挖掘是大数据时代新的计算方式,可大数据对隐私的穿透力会发生一加一大于二的效应。
“这是我总结的六大定律,用它们必能很好地理解大数据和我们的现代生活。总之,大数据不是矿藏,而是土壤,开放的数据即为土地上的河流,河流所过之处,就会孕育起发达的数据文明。”
我们将进入数据挖掘的3.0时代
记者(以下简称记):您在《数据之巅》里举了美国历史的数据发展,那么,中美大数据应用上有何差别?
涂子沛(以下简称涂):差别很大。从技术层面上讲,基本所有应用工具都是外来的,中国连一款像样的软件都没有。在理论层面,统计学等科学的起源都在西方,大数据本身也是美国人提出的一个概念。而在意识层面,中国文化也很缺乏,我们仅仅把数据当个工具。
记:您提到“数据就是静态的历史,历史就是动态的数据”。那么,用数据描述的历史和用文字描述的历史有何不同?
涂:我们传统记录历史的方法是文字描述,但是文字也是一种数据,而且仅仅是大数据的一种,还有数字、音频、视频,这些全是数据。实际上,大数据是一种大记录,我们现在把越来越多的东西记录下来了,所以它就成为了历史。用文字记录历史非常有限,经常会陷入宏大叙事的陷阱,记录的人可能会有“春秋笔法”。可数据是专注细节的,记录的是生活的每个角落和普通个体。比如微博,几十年之后,你发的所有内容都会成为你个人的历史。
记:那么大数据时代怎样保护个人隐私?
涂:最有效的办法就是全民推动立法。应该说,隐私问题是整个大数据时代的挑战。我认为,未来的发展要把选择权交给个人,是要这个服务呢,还是要保护隐私,让个人来选择。未来,我们会进入数据挖掘的3.0时代,就是说你的数据你做主,能不能挖你说了算。 记者 张亚琴