Stanford CS246(24Winter)

Lec1: MapReduce and Spark

1.1 Map-Reduce

map:将数据分成小的组合进行计算

reduce:整合各个map的计算结果得到最终结果

1.1.1 wordcount

1.1.2 HDFS

1.2 Spark

1.2.1 why we need spark

1.2.2 what is spark

核心思想:RDD-

1.2.3 Spark Python tutorial

colab0

see PySpark Tutorial

1.3 Colab1: wordCount

  • 环境配置问题:看上去包openjdk-8-jdk-headless 已经不再维护了,软件列表中无法找到并安装,因此手动将版本改为11 (注意:改完后一定也要把对应的JAVA_HOME环境变量的路径改了,否则无法找到java)
  • 个人习惯拆分任务,然后先编写注释,随后实现代码,colab自动关联AI代码提示就直接把活全部干了哈哈哈哈
  • 学习dataframe的方式:和pandas对比类推

Lec2: Frequent Itemsets Mining

Definition

什么是frequent itemsets?

把一起出现的物品放入一个桶中,某几样物品一起出现的桶超过了给定的阈值,就认为这些物品的集合是frequent itemset

hw1