一、数据新闻的数据再生产研究
数据再生产是通过对数据的采集、清洗和分析得出数据结论的过程,处于数据新闻生产的最前端,也是最重要的部分。“再生产”强调数据新闻是数据记者对数据的二次价值利用。媒体的数据再生产水平决定了数据新闻对现实的洞察、分析和解读能力。有关数据再生产的研究多围绕数据采集和数据分析等环节展开。
在数据采集方面,数据新闻的所有数据必须有来源,并经过交叉验证,在使用数据前,记者应评价数据的质量,如数据来源的可靠性、时新性,数据的搜集目的与方法等。[1]喜欢上网搜集数据的记者不能仅依赖网络和社交媒体,而应从多个不同的渠道采集数据,并将定量方法与定性方法相结合,以便检验数据,增强数据信度。[2]
有研究对英国15份全国性报纸的上百篇数据新闻进行统计,发现这些报纸的数据多来自政府、企业、研究机构、国际组织、民意测验和媒体自采。其中通过政府获取的数据占比最高,通过申请信息公开和“泄露”方式获取的数据占比非常小。[3]记者不愿使用私营机构的数据,因为这种数据价格高、审查严,可信度不及政府和公共机构所提供的数据,且多不提供原始数据或收集数据的具体方法。[4]在数据开放不足的国家和地区,或涉及敏感议题的,数据记者倾向于自己采集数据。
戴玉总结了中国数据新闻生产可利用的六类数据——互联网企业数据、传统企业数据、政府公共数据、研究咨询机构数据报告的数据、外国机构发布的数据和自建数据库的数据,并对每种数据源的公开情况和利用方式进行了梳理。[5]采集数据需要评估其可信度,周宇博认为一套科学的能服务于数据新闻采编流程的数据来源评估体系,应着重从法律(数据生产者是否会为数据生产活动承担法律责任)、公信(数据生产者是否具备数据生产的公信力)、利益(数据生产者是否和发布数据存在利益关系)、程序(数据生产者的数据生产过程是否科学)、资源(数据生产者掌握数据样本的数量和质量)等多重维度考量,并对数据源的可信度等级进行了排序分析。[6]
哥伦比亚大学学者马克·汉森(Mark Hansen)认为数据不是中立的,算法也不是中立的,数据告诉我们的故事经常是不完整的、不确定的和开放式的。[7]数据分析的结果看似公正客观,它的价值选择其实贯穿了从构建到解读的全过程。[8]数据新闻对客观现实的准确反映取决于数据来源、异质数据和数据处理分析中的模型和算法,而非数据量,数据相同但模型、算法不同,最后分析出的结果也可能存在差异。[9]
在具体的数据分析方法上,有研究探讨了字符串查找算法、聚类分析、数据挖掘算法、协同过滤推荐和潜在因子推荐等方法[10],以及社会网络分析[11]在数据新闻领域的实践应用。目前数据分析中常见的六种错误包括草率拟代(sloppy proxies)、二分法(dichotomizing)、相关不代表因果关系(correlation does not equal causation)、区位推论(ecological inference)、地理编码(geocoding)和数据想当然(data naivete)。[12]
2016年美国总统大选期间,美国各大媒体的数据新闻报道遭遇“滑铁卢”,甚至连续两届预测准确的538网站(FiveThirtyEight.com)也预测失败。相关研究探讨了这次数据新闻“失准”的原因。有分析认为民调数据系统性的样本偏向是主要原因,各种小概率因素聚合造成的数据偏向超过了数据处理者和新闻发布者的主观预期。[13]还有观点认为更重要也更容易被忽略的是参数问题,“发言者”和“投票者”往往并非同一群人。热衷在网络和造势活动上“秀存在”的是年轻人,投票率最高的却是中老年人,而数据采集却是依托网络和终端进行的原始参数的采集,出现如此偏差也就不难理解了。[14]
除此之外,还有系统介绍数据再生产整个流程的案例研究。如史蒂夫·布斯特(Steve Buist)通过自己的计算机辅助报道奖(CAJ Award)获奖作品《情况危急》(Condition Critical)详细讲解如何用266个变量来评价“地方健康整合网”(Local Health Integration Networks)的表现。[15]比利时数据记者马腾·兰布雷希茨(Maarten Lambrechts)介绍了如何利用R语言的rvest包编写爬虫程序调查分析比利时弗拉芒大区议会议员的议政情况。[16]
从总体看,数据新闻的数据再生产研究以国外研究成果为主,国内研究者多提出一些理念上的观点,缺少数据分析的具体操作经验,一些数据新闻研究者对大数据、算法、模型等数据科学中的核心概念与生产机制关注、认识和理解不足,数据再生产研究水平有待提升。未来数据再生产领域的研究应当结合数据新闻生产的实际,探讨数据再生产环节中的关键问题、常见问题,深化数据新闻的学术研究,才能给业界以启发和指导。
注释:
[1]文卫华,李冰.从美国总统大选看大数据时代的数据新闻报道[J]. 中国记者,2013(6):80—81.
[2]张帆,吴俊.2011—2015:大数据背景下英美数据新闻研究述评[J]. 国际新闻界,2016(1):62—75.
[3]KNIGHT M.Data journalism in the UK:a preliminary analysis of form and content[J]. Journal of Media Practice,2015(1):55—72.
[4]张帆,吴俊.2011—2015:大数据背景下英美数据新闻研究述评[J]. 国际新闻界,2016(1):62—75.
[5]戴玉.《南风窗》图政数据工作室戴玉:时政+数据新闻怎么做?[EB/OL].(2015—07—17)[2017—09—15]. http://view.inews.qq.com/a/20150717A00NTT00.
[6]周宇博.数据新闻来源的信度评估[J]. 中国广播电视学刊,2017(3):55—58.
[7]BELL E.Journalism by numbers[EB/OL].(2012—10—01)[2018—05—13]. http://www.cjr.org/cover_story/journalism_by_numbers.php.
[8]徐端.大数据战略:个人、企业、政府的思维革命与红利洼地[M]. 北京:新世界出版社,2014:59.
[9]张超,钟新.新闻业应用大数据:展望、误区与对策[J]. 中州学刊,2015(6):169—173.
[10]范红霞,孙金波.数据新闻的算法革命与未来趋向[J]. 现代传播,2018(5):131—135.
[11]王晗啸,卢章平,陈庆.社会网络分析在数据新闻领域的实践应用[J]. 编辑之友,2017(2):76—79.
[12]HARRIS J.Distrust your data[EB/OL].(2015—07—17)[2017—09—15]. https://source.opennews.org/en-US/learning/distrust-your-data/.
[13]胡瑛,普拉特,陈力峰.美国大选新闻中的数据迷思[J]. 新闻战线,2016(23):133—135.
[14]CINDY.为什么2016美国大选大数据预测普遍失灵[EB/OL].(2016—11—13)[2018—11—12]. http://mp.weixin.qq.com/s/6-B17oOEXdx0cwweYCG9fg.
[15]BUIST S.CAJ Award Winner Data Journalism[J]. Media,2013(2):23—24.
[16]LAMBRECHTS M.How I built a scraper to measure MP activity[EB/OL].(2016—10—12)[2018—03—23]. http://gijn.org/2016/10/12/how-i-built-a-scraper-to-measure-mp-activity/.