大数据与大机遇——第二届新媒体与社会发展全球论坛暨中英双边对话论坛嘉宾演讲实录
主办方:上海交通大学新媒体与社会研究中心
上海交通大学舆情研究实验室
牛津大学互联网研究中心
上海发展战略研究所谢耘耕工作室
时间:2012年12月9日
地点:上海交通大学徐汇校区浩然楼
论坛主席:谢耘耕 (上海交通大学人文艺术研究院副院长、上海交通大学新媒体与社会研究中心主任,教授)
主持人:刘康 (上海交通大学人文艺术研究院院长、杜克大学教授)钟杨 (美国田纳西大学终身教授、上海交通大学国际与公共事务学院致远讲席教授)石长顺 (华中科技大学新闻与信息传播学院,教授)
大数据与理解社会
演讲嘉宾:Helen Margetts (牛津大学互联网研究中心主任,教授)
我将与大家分享演讲主题——“大数据:理解社会”(Big Data for Understanding Society)。
21世纪,数字化成为社会领域、经济领域以及政治领域的重要部分。这意味着,我们处于一个数字化的语境,需要一种新的社会数据——一个关于整个人类的全景化数据,一个关于人类行为和组织机构的实时事务型数据,一个关于人们之间、组织之间关系的数据。大数据是全新的数据概念,给我们一种全新的生活方式。传统上,大部分行为研究是基于问卷调查而开展的,但大数据可以直接通过网络获取,这种实时事务型的数据可以真实地反映人们的行为。大数据给社会学家的研究带来全新的挑战,这些数据非常庞大、极其复杂,而且经常变化。这为社会科学提供一个良好发展的契机。
牛津大学互联网研究中心在大数据方面进行了诸多研究:第一点,就数字连接 (digital connections) 方面进行论证。从20世纪90年代中期到2008年,就全世界各大洲的互联网使用情况比较而言,中国所在的亚洲地区的增长速度是最快的。就英国而言,2003年,大约60%的英国人在使用互联网,而到了2011年,这一数据增长到73%。下一代互联网使用者(the next generation user) 所占的比重从13%增加到了32%。
第二点,大数据催生出诸多对新媒体社交网络的思考。在英国,社交网络的使用情况根据年纪的不同而变化。在14到17岁的年轻人群中,93%的人使用社交网络。年纪越大,使用社交网络的比重越低。社交网络的使用意味着与人的交流不仅发生在现实世界,也同样存在于虚拟数字社会中。
互联网上的大数据能够连接现实世界和网络世界。最近世界不少地方发了洪水,美国的雨季是10月,英国是11月。而推特网 (Twitter) 上展示的情况和现实世界基本一致,洪水多发地区的人们在网上的聊天也多半与洪水有关,非洪水多发地的人们则不太关注。
第三点,另一项关于大数据的研究发现,通过观察各国政府,相比其他方式,人们更乐于在网上和政府互动。当人们想到政府时,他们首先想到网络政府。这正是英国政府面对的情况。我们的研究讨论一个新的政府组织结构:政府组织之间如何关联,与外部如何关联,与其他政府如何关联的特点。通过网络收集数据线索,收集所有政府网址链接等,这可以比较政府间的不同,并理解其政府在网络中的结构。
第四点,大数据可以告诉我们历史。我们另一个项目是回顾英国近50年的历史,通过搜索整理这些数据以便人们充分利用,这就是大数据——我们将制作最近50年的政府历史数字地图,英国的数字系统。例如,英国政府曾收到过200万人的政治请愿签名。很多人不满意某项政策,最终请愿使得政府改变了主意。尽管互联网使请愿活动变得容易,但大多数网络动员的结果却是失败的。实际上,数据表明,约95%的请愿没有获得超过500个签名,更别提200万个签名了。通过数据的分析,进行市民参政议政的研究是很有前景的。
第五点,通过对大数据的分析,还可以发现知识分布的不平衡。对维基百科的编辑量等数据进行分析发现有些国家的编辑量大,而有些国家的编辑量甚至没有,比如非洲某些国家。这在一定程度上反映了网络世界中知识生产的不均衡性。
此外,大数据也给社会学家带来更多挑战,其中最核心的挑战在于方法论。大数据对社会科学来说是一个全新类型的数据,它更像是自然科学研究。因此在方法和技术上与问卷调查等方法不同,需要新的技术手段来生产和分析数据,形成全新的社会学研究方法。这需要跨学科合作,在很大程度上将数据具体化。在伦理上也存在很多挑战,如数据可能会泄露个人信息等。
我相信社交媒体和互联网上产生的大数据有助于我们理解社会。通过不同学校间的合作,加强对数据的理解,可能会改变决策、影响政治,可以使我们更好地设计法规制度、组织机构以及公共政策。
大数据与科研创新
演讲嘉宾:谢耘耕 (上海交通大学人文艺术研究院副院长、上海交通大学新媒体与社会研究中心主任,教授)
我发言的主题是“大数据与大挑战”,主要探讨大数据给人文社会科学工作者带来的挑战。
2011年6月底,调研机构IDC的报告显示,全球数据产生量在2011年达到1.8ZB,在过去5年增加了5倍。报告还预测全球数据量将每两年翻一番,到2015年达到8ZB, 2020年将达到35ZB。
大数据时代会给各行各业的发展带来诸多机遇。麦肯锡关于大数据的报告发布之后,大数据迅速引起计算机行业、金融界乃至其他各行各业的广泛关注。数据已经渗入每一个行业领域成为重要的生产因素,人们对于海量数据的应用预示着新一轮生产率的增长和消费者的盈利浪潮的来临。企业用户在拓展市场、挖掘潜在用户的同时会借助大数据进行分析。目前全球所有互联网、IT业巨头都意识到大数据时代的重要性。
大数据还给科学研究、数据分析等带来新的发展机遇。依托云计算的超强计算能力和数据挖掘能力能够从大数据中提取和挖掘知识,发现现象背后的规律,进而产生一些新的理论。过去,人们通过线索去区别和关联群体性的事物,比如说用身高和年龄划分群体,这实际上是人们在缺少获取存储信息的方式情况下的选择。如果有能力选取尽可能全面的线索,将可能获得更多意想不到、有价值的信息,发现更多的内在关系。采用不同的维度和方式对基本信息线索进行分析,获得的最终的结果就是大数据。
以美国为代表的发达国家开始重视大数据的发展。美国政府已于2012年3月29日宣布进行大数据研究和发展,来推动从大量的复杂的数据集合中获取知识和洞见能力,该举措涉及联邦政府的6个部门,包括科学基金会、国家卫生研究院等。
同时,大数据时代的来临还给中国的人文社会科学工作者提出挑战。过去我们通过一些民意调查和一些有限的知识分析来进行研究,但数据往往受到经费和数据采集能力的局限。大数据时代,人文社会学科该如何面对?人文社会科学近百年来没有太大的变化,一直局限在一个传统的理论框架内进行研究,如果想要有一个大的质的突破,一定要通过与工科、理科的结合,探求一些新的方法、新的技术,通过对大量实证数据的挖掘来发现新的知识、发现新的学理。
面对挑战,上海交通大学舆情研究实验室与上海交通大学信息安全学院联合开发中国人文社会科学基础数据研究平台,建立了中国公共事件数据库,以原搜索为技术依托,数据研究平台拥有信息采集、信息聚集、信息发布等功能。中国人文社会科学基础数据库和中国公共事件数据库秉承数据记忆工程,以数字记忆的理念首次清晰地构建出中国公共事件的发展脉络,力图以数据为基础对中国公共事件的发展演变规律、中国公众的社会心理的变迁、主体的经验得失等各方面进行分析,力求从理论与实践方面推动中国公共事件相关研究工作的进展。目前仅公共事件已有15000多起,并以每天超过几万的数据不断地更新。
数据库作为一个研究平台,其中数据容量巨大,总类丰富,为管理者和研究者提供了一个丰富的数据资料。在海量数据的支持下,该数据库可以实现以下功能:其一,保存功能。集成数据库打破了海量数据在时间空间上的限制,通过数字记忆工程把数据保存下来,使得数据信息永久陈列,随时可用,实现保存的功能。其二,数据自动采集、分类功能。集成数据的建立打破了传统数据收集无序的状态,对海量数据进行自动化的采集、分类,便于信息查找与分析。我们对数据进行了很多分类,建立了很多分类数据库。其三,实践运用。数据库的使用范围也非常广泛,可以为国家、各级政府部门、企业机构的决策提供参考。
任何一个研究都需要协同创新,需要实现国内和国际、业界和学界之间的交流合作。我们期待与更多的政府机构、科研机构和海外高校科研机构的合作,在大数据时代共同推动人文社会科学工作者的转型和突破,实现知识的创新。
互联网与政治生活
演讲嘉宾:钟杨 (上海交通大学致远学院、美国田纳西大学政治学系教授)
作为一个政治学者,我的研究方向主要集中于对公众意见的调查,属于传统的研究方法。我将围绕“互联网在政治方面给中国带来了什么变化”这个主题展开。
总体而言,中国的互联网对政治起到了积极作用,产生了积极影响。首先,它使普通老百姓可以通过微博等发布信息并产生影响。微博等网络曝光出一些社会的弊端,并得到了解决。同时也迫使政府更加注重对民间声音的回应。最近,陕西省安监局原局长因佩戴不同高价值手表,遭到了网络曝光,随后陕西省政府立案调查。这个例子反映了互联网的威力和作用——互联网能够揭露腐败。当然与官方材料公布的数据而言,互联网所揭露数据还是很小的一部分。但是,就反腐倡廉而言,互联网的作用不容置疑。
其次,互联网使得政府决策和执政更加透明化,政府政策的制定过程会更容易展示出来。比如各级政府开展电子政务,不少地方政府部门开通微博、政府网站等传播信息。政府可以利用新媒体与公众沟通,老百姓也能够了解政府在做什么。
再次,互联网加强了信息的流动,在一定程度上能够实现老百姓的政治诉求,一定程度上催生了群体事件的发生。尽管存在一定的限制,但如“大连PX事件”等,就是通过新媒体传播的。
但另一方面,互联网有两点没有改变。其一,尽管通过互联网可以发表很多言论,但真正实现言论自由要靠宪法的保证,而不能完全依赖互联网的发布渠道。其二,互联网实际上没有能真正改变中国的政策。当然个案中可能产生了影响,但是宏观上没有,这方面还有待改进。
上述观点,仅依靠我的观察和思考,并非大数据的支持。
互联网与网络服务
演讲嘉宾:刘冰 (中国互联网信息中心副主任)
今天我讨论的主题是:中国的互联网往哪个方向去发展——未来数据将会成为网络服务里最核心的一部分内容。
目前中国手机的网民数是3.88亿,手机也成为重要的网络终端。而美国,88%的网民也是通过手机上网的,其他两种终端——笔记本和个人电脑分别占55%和57%。社交网站的发展面临很多问题,SNS作为单独的网站逐渐失去竞争力,比如facebook的用户使用量在持续下降,中国也出现同样的问题。虽然SNS的访问量是下降的,但是SNS却走向了很多应用,如商业、新闻、娱乐,特别是手机软件的应用。中国手机软件应用近年来快速增长,SNS与手机应用的结合成为一种趋势。
进行互联网分析研究时,可以通过客户端装软件抓取数据,获得较大的样本,从而反映中国网民的行为。未来,手机和SNS服务的融合,能使得对人属性的辨识更加清晰,这些数据可以应用到媒体、搜索引擎和电子商务等领域中。手机带来的是地理位置和行为轨迹的信息,而SNS带来的是社会地位和社群属性的信息。这些对我们提出要求——必须要有非常强的数据分析和应对能力。
也许,现在还没有资格去谈大数据——中国乃至全球还没有找到一个真正的大数据应用。大数据建构的联系可能是跨领域的,比如人和车的关系、商品和食品之间的联系——那才是一个完美的数据时代。对于全球的互联网服务,可以肯定地说,如果没有手机和SNS服务的融合,那么将可能是失败的。
( 整理者:高云微 )