三 研究方法
本文基于知网收录的北京大学核心期刊、CSSCI及中国社科院中国人文社会科学核心期刊的新闻传播类论文,以“大数据方法”和“大数据的方法”为关键词,选取了所有时间段内全文包含任意一关键词的文章,共计93篇,其中关键词仅出现在参考文献中的共有7篇,此外还有7篇因为与本文的研究问题联系极弱(如“大数据”和“方法”分别与其前后连接的词语构成了其他含义),未纳入分析范围。
研究将剩余79篇论文基于扎根理论(Grounded Theory)结合上下文对相关内容进行开放式编码,以此确认“大数据方法”一词含义的分类。为确保分析结论的效度,共有两名编码员参与数据分析。编码员首先进行了预编码,随机抽取样本量的30%共24篇论文,由两名编码员各自独立编码,并将编码结果进行比对,显示共识度(Level of Agreement)为64%。基于两份数据分析结果,编码员就有分歧的编码进行解释、讨论、协商,最终形成统一的意见。此后,两名编码员分别对剩余论文进行编码,在此期间编码员采取了持续比较(Constant Comparison)的方法,即在编码过程中不断与之前的内容及其对应的编码进行比较,并在有必要时对编码进行适当的调整和修改,确保编码准确、意义一致。同时,两名编码员定期进行交流讨论,及时发现并解决分歧,从而保障了编码标准在编码员之间的一致性。最终结果显示Kappa系数为0.81,共识度为89.69%,支持了数据结论的信度(具体数据搜集和分析过程参见图1)。
图1 数据收集及分析流程
同时,本文也对国外关于大数据的研究进行考察,以了解“大数据方法”在国外学术界的应用情况。本文基于Web of Science,不分专业,以“Big Data”为关键词进行检索。结果显示,2009年之前,大数据研究论文数量非常有限,但此后明显持续增长,因此,本文将检索时间范围确定在2009年至2018年,共计21347篇。为了进一步了解这些大数据论文的主题,笔者使用数据分析软件Matlab抓取了论文的关键词并分析它们出现的频率以及和其他关键词之间的共现矩阵(Co-occurrence Matrix,即关键词两两同时出现的频率)。考虑到关键词的代表性和呈现的便利性,本文选取了出现频率排名前20的词语,并使用NetDraw软件将词语的出现频率和共现矩阵在图2中呈现出来。其中圆圈大小代表出现频率的多寡,圆圈之间连线的粗细代表两个词同时出现的频率。此外,为了进一步确认图2中呈现的信息,本文还选取了引用率在200以上(以2019年4月1日搜索结果为准)的论文进行深入的全文分析。
图2 关键词出现频率和共现矩阵