上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2.3 构建过程
(1)科研主体识别。
首先,对文献集合中的科研主体进行识别抽取,如机构、作者、地区等,识别后的科研主体,利用机构词典、人名词典进行规范化处理,合并相同主体,建立规范后的科研主体与文献的隶属关系矩阵,记录每个科研主体在每个文献中出现的次序。如果同一主体在文献中出现多次,以第一次出现的次序为准。这种情况经常在同一机构的多个作者共同发表论文时出现,为真实反映数据的结果,采用以上处理方法。
假设,文献集合中规范后有n个科研主体,m篇文献,构建科研主体与文献的隶属关系矩阵A如下:
其中,bi=1或bi=0,
(b1b2b3)ij=(100)ij表示科研主体i是文献j的第一著者。
(b1b2b3)ij=(010)ij表示科研主体i是文献j的第二著者。
(b1b2b3)ij=(001)ij表示科研主体i是文献j的第三或第三以后著者。
(b1b2b3)ij=(000)ij表示科研主体i不是文献j的著者。
(2)计算科研主体合著文献数量和。
其次,计算每个科研主体分别作为第一、二、三及以后合著者的文献数量和,构建数量矩阵。
其中分别表示科研主体i作为第一、二、三及以后著者的文献数量之和。
(3)抽取科研主体特征词。
然后,按照科研主体特征词的使用频率抽取每个科研主体的指定数量的特征词集合,记录科研主体与其特征词集合的映射关系。
(4)构建合作关系矩阵。
最后,以科研主体与文献的隶属关系矩阵A,构建科研主体的合作关系矩阵AA'。其中,