上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
二、数据处理及清洗
出于关键词设置、爬虫采集错误等原因,在信息采集的过程中,有可能采集不到信息或者信息值异常。为保证本书研究内容结果的整体稳定,需要对数据进行预处理。数据预处理技术包含在大数据采集、存储、管理技术之中,通过大数据采集技术采集到的信息往往是巨量且冗杂的,对数据贴上不同标签并配以特定代码,可方便数据存储和管理。
数据预处理技术包括筛查(Screening)、清理(Cleaning)、格式化(Formatting)、缺失值或异常值替代(ReplaceMissingValues)等。课题组根据课题需要,从数据库中筛查出关于“一带一路”的信息数据,对其中的垃圾信息、无效信息和不在研究期、研究区域内的数据进行清理。对经筛查和清理后保留的数据进行格式化调整,对数值型和字符型数据进行分类管理,图片或音像数据还需转化成数值或文本。对于数值型数据,若发现缺失值或异常值,则采取统计方法进行替代。