1.2.4 可扩展_Spark快速大数据分析（第2版）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

1.2.4　可扩展

Spark 的重心在于快速的分布式计算引擎，而不是存储。和 Apache Hadoop 同时包含计算和存储不同，Spark 解耦了计算和存储。这意味着你可以用 Spark 读取存储在各种数据源（Apache Hadoop、Apache Cassandra、Apache HBase、MongoDB、Apache Hive、RDBMS 等）中的数据，并在内存中进行处理。你还可以扩展 Spark 的 DataFrameReader 和 DataFrameWriter，以便将其他数据源（如 Apache Kafka、Kinesis、Azure 存储、亚马逊 S3）的数据读取为 DataFrame 的逻辑数据抽象，以进行操作。

Spark 的生态系统日渐壮大，社区的开发人员维护着各种第三方 Spark 扩展包，如图 1-2 所示。这个丰富的生态系统包括各种外部数据源的 Spark 连接器，以及性能监控工具等。

图 1-2：Spark 的连接器生态