大数据采集与处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.3 大数据处理

大数据的分布式处理技术与存储形式、业务数据类型等相关,针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。MapReduce是一个批处理的分布式计算框架,可对海量数据进行并行分析与处理,它适合对各种结构化、非结构化数据进行处理。分布式内存计算系统可有效地减少数据读/写和移动的开销,提高大数据处理性能。分布式流计算系统对数据流进行实时处理,以保障大数据的时效性和价值性。

总之,无论哪种大数据分布式处理与计算系统,都有利于提高大数据的价值性、可用性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统,而数据处理系统的性能与优劣直接影响大数据的价值性、可用性、时效性和准确性。因此,在进行大数据处理时,要根据大数据类型选择合适的存储形式和数据处理系统,以实现大数据质量的最优化。