spark是大数据处理框架，包括Spark RDD、Spark SQL、 Spark Streaming，MLlib，GraphX几大部分，
通常用于处理各种大数据任务。Spark基于内存计算，可以极大提升计算速度。

1 Spark存储与数据

2 DataFrame

dataframe的存储是允许分布在多台不同物理计算机上，可以通过定义partition来定义数据的分布方式

如果不定义，一般采用随机分布的方式

1	data = spark.read.json("file name")

可以用pandas函数操作，也可以用sql语句查询