Stanford CS246(24Winter)

2024-07-24|KnowledgeData Science

Lec1: MapReduce and Spark

1.1 Map-Reduce

map：将数据分成小的组合进行计算

reduce：整合各个map的计算结果得到最终结果

1.1.1 wordcount

1.1.2 HDFS

1.2 Spark

1.2.1 why we need spark

1.2.2 what is spark

核心思想：RDD-

1.2.3 Spark Python tutorial

colab0

see PySpark Tutorial

1.3 Colab1: wordCount

环境配置问题：看上去包openjdk-8-jdk-headless 已经不再维护了，软件列表中无法找到并安装，因此手动将版本改为11 （注意：改完后一定也要把对应的JAVA_HOME环境变量的路径改了，否则无法找到java）
个人习惯拆分任务，然后先编写注释，随后实现代码，colab自动关联AI代码提示就直接把活全部干了哈哈哈哈
学习dataframe的方式：和pandas对比类推

Lec2: Frequent Itemsets Mining

Definition

什么是frequent itemsets？

把一起出现的物品放入一个桶中，某几样物品一起出现的桶超过了给定的阈值，就认为这些物品的集合是frequent itemset

hw1