Spark最简单基础

makailong 2018-11-09 原文

Spark笔记

1. flatMap和map的区别

map函数会对每一条输入进行指定的操作，然后每一条输入返回一个对象；

flatMap函数则是两个操作的集合，即先映射再扁平化：

i.同map函数一样，对每一条输入进行指定的操作，然后为每一条输入返回一个对象；

ii.然后将所有对象合并成一个对象。

2. 交集并集

3. 三种join

4. reduceByKey 和 groupByKey 对比

reduceByKey在分发之前做一次运算、分发之后做一次运算。

groupByKey只在分发后做一次运算

也就是说groupByKey主要有有两点缺点：额外的通信成本；分发后的同key记录堆积可能导致内存溢出

那groupByKey 什么必要存在？

reduceByKey groupByKey 就是两个运算框架，我们写业务代码的时候，需要的就是修改“运算”法则，框架规定了我们 reduceByKey 分发前后的运算是一样的。

以上两点缺点的前提是存在运算：只是收集同key的记录；需要必须所有数据一起的运算（比如方差）。此时缺点不成立

#WordCount, 第二个效率低

sc.textFile(“/root/words.txt”).flatMap(line=>line.split(” “)).map(word => (word, 1)).reduceByKey((a, b) => a + b)

sc.textFile(“/root/words.txt”).flatMap(x=>x.split(” “)).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

sc.textFile(“/root/words.txt”).flatMap(x=>x.split(” “)).map((_,1)).groupByKey.map(t=>(t._1, t._2.sum)).collect

5. Cogroup

根据key求和

val rdd4 = rdd3.map(t=>(t._1,t._2._1.sum+t._2._2.sum))

6. 笛卡尔积

7. take，top，first，count，takeOrdered

不去重写错了

本文链接：https://www.cnblogs.com/makailong/p/9933555.html

随机推荐

ios开发之-windows下面虚拟机运行osx，以及xcode – cutepig

ios开发之-windows下面虚拟机运行osx，以及xcode 下载vmware osx镜像 https:/ […]...

统计学概念

方差标准差变异系数度量标准差相对于均值的离中趋势标准分标准分提供了一种对不同数据集的数据进行比较的方 […]...

不能说的秘密

不能说的秘密不能说的秘密简介名称：不能说的秘密译名：Secret 地区：中国、中国台湾类别：爱情/剧 […]...

深入IOC及其启动原理

IOC总结 1. IOC概述三个问题： IOC是什么为什么用它怎么用 1.1 是什么？两个概念：控制反 […]...

从通信开始聊聊消息中间件

一、系统间通信方式我们可以想到的方式：基于文件基于共享内存基于IPC 基于Socket 基于数据库基 […]...

UGUI的图集处理方式-SpriteAtlas的前世今生

最糟糕的是人们在生活中经常受到错误志向的阻碍而不自知，真到摆脱了那些阻碍时才能明白过来。 —— 歌德说到UG […]...

HTML连载37-边框属性（下）、边框练习

一、边框属性 1.连写（分别设置四条边的边框） border-width:上右下左； border-st […]...

Python TF-IDF计算100份文档关键词权重 – bbking

Python TF-IDF计算100份文档关键词权重　　上一篇博文中，我们使用结巴分词对文档进行分词处理，但 […]...