Spark 提供了一种称作 RDD(resilient distributed dataset,弹性分布式数据集)的简单逻辑数据结构,它是 Spark 最基本的抽象。Spark 各种其他高级的结构化数据抽象(比如 DataFrame 和 Dataset)都是基于 RDD 构建的,RDD 彰显着 Spark 的简单性。Spark 提供的 RDD 操作分为转化操作和行动操作,这种简单的编程模型使你能够轻松地使用熟悉的编程语言来构建大数据应用。