上QQ阅读APP看书，第一时间看更新

学者评论

大数据给社会学研究带来了什么挑战？

邱泽奇邱泽奇，北京大学社会学系教授。

编者按：

这篇文章是根据2015年5月29日邱泽奇教授在北京大学社会学系的一个讲座整理而成。为了缩短篇幅，在整理中删除了重复的、缺乏信息的内容。

今天跟大家分享我的研究成果，我对大数据的观察，不是扫盲。为了让大家听起来尽量没有障碍，也加入了一些知识性的东西，因此，也是和各位交流。我想和大家讨论三个问题：第一，什么是大数据？人们说的很多，错误的概念也非常多，我想澄清大数据是什么。第二，大数据和社会学研究到底有没有关系？对这个问题，人们也有比较多的想法，同样也有很多误解，我要说说我的观点。第三，重点谈一谈，大数据对社会学研究的重点带来什么挑战？大数据带来的挑战特别多，对社会学研究而言，到底有什么样的挑战呢？

一、什么是大数据？

首先讨论大数据到底是什么？

大家听的很多，了解的却不是特别系统和具体。对社会学家而言，最熟悉的是社会活动。我称之为人类活动的造痕。人类的任何活动都会留下痕迹。考古学研究在各地挖墓，挖各种各样的东西，那些东西都是人类社会生活留下的痕迹，我们拿它作为证据，探讨当时的社会生活。历史中，人类社会生活留下的痕迹绝大多数都消失了，挖出来的墓，在整个人类墓地的亿分位数都不到。因此，如果你说你掌握了过去人类社会的多少痕迹，我觉得千万不能大胆讲，是因为你真的不知道你到底掌握了多少。

我举一个例子，譬如周原。我有一个博士生，我让他回答一个简单却不能简单回答的问题：中国的村庄为什么三千年不散，如今却突然就散了？在过去三千年里，村庄始终是人类社会生活、人类聚集生活的一个状态。我希望他借助考古数据来做。北京大学考古学文博学院一直在探索陕西省的周原遗址。周原，过去三千年来一直有很多村庄，如今依然还是村庄状态，但很快就会消失。三千年来，村庄生活留下了痕迹。能够保留下来的痕迹，通常被称为证据。考古学、历史学都用证据，社会学也用证据。社会科学其实都用证据。这些证据，通常也被称为数据。不仅考古发现是人类活动的数据，历史档案也是人类活动的数据，譬如人口普查。不少人以为是美国人发明创造了人口普查，其实不是。中国在两千多年前“废井田、开阡陌”就开始登记人口了。在两千多年的行政历史里，户口登记是一项重要的、涉及众多公共事务的制度。

数据既然很早以前就有了，怎么就冒出来大数据了呢？

一个简单的回答是，实时地网络化汇集、网络化存储和网络化运用人类行为的痕迹，这才构成了大数据。

什么叫大？麦肯锡从行业和业务以及价值链的角度给了一个定义，说大数据是生产力的来源。如今，各行各业都在讲“互联网+”，“互联网+”背后有一个非常重要的概念大家可能容易忽略，叫“数据驱动”。在社会学研究中，过去，我们很熟悉“理论驱动”；现在，数据驱动已经变成了非常重要的概念了。

麦肯锡定义的关键点叫消费者盈余浪潮。过去，我们从石油里找财富，后来从机器里找财富，再后来从其他东西里找财富，现在可以从数据里来找财富了。

其实，业界流传的故事说，“大数据”概念是从IBM来的。从学术研究的立场出发，可以对大数据概念的出处存疑。不过，IBM的确用4个维度给大数据概念下了一个明确的定义：数量（volume）、形态（variety）、价值（value）、速度（velocity）。我认为，这是从数据出发的定义。

学术研究通常要按照学科规训理解，我也按自己的方式来理解，我给大数据概念一个定义：痕迹数据汇集、存储和运用的并行化、在线化、生活化和社会化。前面我之所以交代痕迹数据，希望说明的是，数据从来不缺。大数据是把过去数据的汇集、保存、利用方式做了一个很大的改变。不能说颠覆，现在颠覆为时太早，但它的改变确实非常重大。

汇集、存储和运用的并行化是一个计算机和网络科学的概念。什么叫并行？其实很简单，北京四环上的四条车道同时跑车就叫并行，如果只有一条车道跑，就不叫并行，叫串行。并行，指同时运行2个或多个线程。在计算机学科里叫线程，在交通学科里叫车道。

在线化也是一个计算机和网络科学的概念，指始终在网络上，数据的汇集、存储和运用都是在线状态。社会学的人都知道组织结构的科层制特征。可是网络里的组织结构则不同，总体上看起来是科层制的，实际运行却是网络状的，且不同的网络结构混杂在一起。在线化意味着数据的汇集、存储和运用，都在混乱结构的网络上。

生活化则是一个社会学的科学概念，是说数据的汇集、存储和运用已经渗透到了社会生活的方方面面，无处不在、无时不在。不仅生产活动在汇集、存储和运用数据，如企业产品生产、商店产品销售；生活活动也在汇集、存储和运用数据，如大家日常生活对计算机、手机、网络、家用电器的使用等。

社会化也是一个社会学的科学概念，指社会的大多数成员都参与了数据的汇集、存储和运用。系统和科学地搜集数据，是社会学的专长之一。过去，都是由机构、科学家去搜集。如今，每个人都是数据提供者、存储者，同时也是数据的运用者。譬如导航，你在运用道路数据的同时，也在提供和存储道路数据。

不过，理解痕迹数据汇集、存储和运用并行化、在线化、生活化和社会化的前提是理解IBM概念的4V。下面，我先沿着IBM的4V概念做一个简单的说明，让各位对大数据在外观上有一个感知。

首先是量。大数据指其超出了任何个人在可接受的时间和范围内汇集、存储和运用数据的能力。我给大家一个基本概念，2012年，单一数据集已经从兆级（MB），跃升到TB级，从MB到TB，中间还有GB。如果谈大数据，至少是PB级数据。任何个人计算机、小型服务器、大型服务器，没有单机可以处理PB级数据。为汇集、存储和运用数据，并行化和在线化是其目前的解决方案。

在进一步讨论前，普及一下信息计量单位。字节（bytes）是基本计量单位，相当于货币里的一分钱，每满1024个单位，向上提升一级，上一级为KB，之后有MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB等，简单地说，以2的10次方晋级。

从直立行走到2013年，整个人类积累的可利用数据量大约为5EB，可2013年生产的数据量却达到了800个EB。据统计，全球90%的数据是在过去两年生产的，其中社交网络、传感器、科研、金融都在产生越来越多的数据，几乎是每两年数据量翻一番。

其次是形态。传统的调查数据通常是结构化数据。结构化数据也是一个计算科学的术语。如果熟悉SPSS，就比较容易理解，通常可以形式化为一个二维表，第一行是变量（又叫字段），从第二行开始到结束，就是每一个变量的案例值，形成了一个规整的变量值矩阵。熟悉调查数据的都知道，如果一个值没有对应的变量，就麻烦了，没办法处理了。结构化的特点就是这样。

大数据不是结构化数据，是混合形态的数据。什么叫做混合形态数据？指既有结构化数据，也有其他形态的数据。结构化的数据指各类结构化的数据库表，工业计算和科学计算常见的都是结构化数据，像甲骨文和ERP都有自己的结构库表，随时可以通过输入字段查询，比如说在北京大学要找人，找郭志刚，依据结构库表的约定，输入郭志刚三个字的首字母马上可以定位到郭志刚。逻辑是，在姓名字段里给了两个值，一个值是郭志刚的汉字，一个值就是郭志刚的汉语拼音首字母缩写，也许GZG三个字母对应很多人名字，其中一定有郭志刚，这是结构化的。

大数据不完全是结构化的，有一部分是结构化的，如姓名、账号、存款余额、消费记录等等，但大多数是非结构化的数据，比如说日志，查了几回，刷了几次卡，每次在哪里刷的，不是结构化的，刷了多少钱却是结构化的，刷了几次不是。每一位用户都有使用日志，有的还有音频，比如说微信中的语音，音频数据不是结构化的，图片不是结构化的。用户应用活动的很多数据都是非结构化，这就让数据变成了混合形态，这是不同于传统数据的非常重要的区别。

接下来，从商业视角来看数据的价值。传统的数据通常是分析目标导向的数据，有非常明确的价值取向。譬如我做中国家庭跟踪调查（CFPS），非常明确，搜集与人类社会生活、未来成就、幸福相关联的各种变量数据，有非常明确的价值指向。

大数据是记录导向的，是一个颠倒。大数据是为了技术活动、获得人类社会活动的痕迹而记录数据，获得是造痕者留下的并行数据（parallel data）；不是为了解释某个现象、分析某个结果来记数据。在数据获取上，这又是一个非常重要的变化。

影响这个变化的因素，第一是记录的便捷化，无须研究者花钱花资源去搜集数据，每一个用户自己就主动提供了数据。第二是存储的便宜，存储的价格在过去的一段时间里呈指数曲线下降。

正因为大数据不是有目的的测量，而是造痕者留下的痕迹，因此，它的价值密度与社会学的调查数据比较便低得多。如果希望用大数据来证明什么，就需要从数据中去挖掘、去发现，而不是用假设检验的方式来检验。跟传统的调查数据比较，其基本的出发点是有区别的。通常认为，大数据价值密度比较低，从商业角度来看，的确如此；从学术角度，却不一定。

最后，非常重要的特征是速度。传统的数据，从设计、调查、清理到可用需要相当长的时间。举一个例子，1887—1890年，赫尔曼·霍尔瑞斯为统计1890年人口普查的数据，发明了读卡机，把原本需要8年人口普查活动用一年的时间完成了。再譬如CFPS，发动了几百位访员，用计算机采集数据，从调查结束到可用也用大概2年的时间，其中数据清理的时间非常长。

大数据，那么大的量，怎么处理？这是非常大的挑战。此外，大数据不同于传统数据的另一个特点是没有数据概念，只有“数据流”概念。这是社会学研究需要换脑子的关键点。什么意思呢？数据每时每刻都在产生、记录，没有一个时间节点的数据是完整的数据，因为，它根本就不是以完整数据为目的的数据，每时每刻都有数据可用，也都有它的约束性。其中的一个约束性是，它不是针对具体研究问题的可用数据。如果要研究一个问题，可以截一段数据出来，却不是马上就可用的数据，而是可以挖掘的数据。

不管大数据有什么样的特征，本质上，它还是数据，是人类社会生活包括私密生活留下痕迹的数据化。痕迹数据变成大数据有一些条件。第一个条件是行为的监测化，一旦造痕者的行为与数字化设备关联在一起，就具有了可检测性，比如说银行数据、社交数据、健康数据、家居数据等等。很多人喜欢戴手环，手环就是一个监测设备。如果你有什么自己不愿意让人知道的行为，建议你最好把手环摘掉。手环，不仅可以监测你的身体参数，也可以记录你活动的地理位置参数。

第二个条件是监测和检测的网络化。如果只是局部监测，问题不大，天知、地知、你知、我知而已。一旦监测设备具有网络功能，监测活动便让任何造痕活动变成了网络活动，甚至是在你不知情的前提下。比如说手机，现在每个人都在用智能手机，你们把设备上的位置选项打开看一看，默认状态是开启的。你说不愿意让自己的活动变成网络活动，问题是设备的功能你不一定完全了解，它可能随时随地都在把你的活动变成网络活动，监测的网络化就是社会活动的网络化过程，也是这个世界的连通过程，一个典型的例子是微信的朋友圈。

第三个条件是网络的数据化。如果仅仅是造痕活动的网络化倒也罢了，最多是知晓范围的扩大。问题是，网络化的过程也是数据化的过程。造痕活动的网络化首先是活动的数据化，其次是活动数据的网络化。单个节点的数据，常常不具有社会意义，节点数据的汇流便让造痕活动具有了社会意义。比如说，某个老师每周到办公室来两次，根据GPS信息，可以知道他什么时间到，什么时候离开，中间离开几次。如果这个老师有一个特别去处，每周固定的时间都要去。作为同事，我不知道，可手机运营商完全了解。依据也是这个老师手机提供的位置数据。当把所有人的位置数据汇集起来，可以知道的事情就多了。不仅可以知道有多少人有特别的去处，也可以知道每个的生活习惯、工作习惯、身体状态等等。

大数据其实与人类的社会行为相伴随，与网络同在，与社会一体。我想，从社会的视角来看，这就是大数据。

简单归纳一下，大数据，形态是数字化的、非结构化的、在线的、流动的数据；容量都在PB级以上，是单个计算设备无法处理的数据；来源，不是专门搜集的数据，而是与行为相伴生的、通过传感器、设备获取的数据、通过网络汇集的数据；不过，并非系统、也非完整的数据。

对社会学而言，大数据是一种新的研究数据来源，一种永不停歇流动的数据，目前还不是对过去其他来源数据的全面替代。

我给大家几个例子，大家了解、体验一下什么是大数据。

2014年双十一。阿里自己造了一个云，叫ODPS云，这个云和世界上其他云不一样，用几十万台个人电脑阵列，运行着自己的系统，在6个小时内处理100PB数据，相当于处理一亿部高清电影。在零点以后，支撑了每一秒有7万瞬时订单，让5万个人同时抢1千件商品不超卖；3分钟成交额10亿人民币，不出任何差错；在570多亿的交易中，支持了243亿的交易额在手机上完成，产生了2.78亿个物流订单；全球有217个国家和地区加入交易。这些事情如果不了解的，甚至都不敢想象，而且都是智能化的。

阿里还造了一个数据系统，叫聚石塔。这个聚石塔干什么呢？直接管订单，2013年的双十一只有75%的订单在聚石塔上处理，没有丢单；2014年处理的比例上升到95%;2015年的双十一，估计全部都在这上面。

所有这些活动，都在实时发生，也在实时处理。发生的便成了数据，处理的也是数据。流动着的数据量，是传统社会学想象不到的量级。能够完成这些工作的就是计算能力，这个能力是人类在两年前都无法想象的。