Lec1: MapReduce and Spark
1.1 Map-Reduce
map:将数据分成小的组合进行计算
reduce:整合各个map的计算结果得到最终结果
1.1.1 wordcount
1.1.2 HDFS
1.2 Spark
1.2.1 why we need spark
1.2.2 what is spark
核心思想:RDD-
1.2.3 Spark Python tutorial
colab0
see PySpark Tutorial
1.3 Colab1: wordCount
- 环境配置问题:看上去包openjdk-8-jdk-headless 已经不再维护了,软件列表中无法找到并安装,因此手动将版本改为11 (注意:改完后一定也要把对应的JAVA_HOME环境变量的路径改了,否则无法找到java)
- 个人习惯拆分任务,然后先编写注释,随后实现代码,colab自动关联AI代码提示就直接把活全部干了哈哈哈哈
- 学习dataframe的方式:和pandas对比类推
Lec2: Frequent Itemsets Mining
Definition
什么是frequent itemsets?
把一起出现的物品放入一个桶中,某几样物品一起出现的桶超过了给定的阈值,就认为这些物品的集合是frequent itemset