PySpark Tutorial

spark是大数据处理框架,包括Spark RDD、Spark SQL、 Spark Streaming,MLlib,GraphX几大部分,
通常用于处理各种大数据任务。Spark基于内存计算,可以极大提升计算速度。

1 Spark存储与数据

2 DataFrame

2.1 分区

dataframe的存储是允许分布在多台不同物理计算机上,可以通过定义partition来定义数据的分布方式

如果不定义,一般采用随机分布的方式

2.2 Spark-Pandas Guide

2.2.1 获取数据

1
data = spark.read.json("file name")

2.2.2

可以用pandas函数操作,也可以用sql语句查询