Spark学习笔记(一)----spark算子操作

fenngz 2018-10-17 原文

1.前言

　　最近在帮公司了解大数据方面的技术，涉及到spark的相关内容，所以想写个笔记记录一下。目前用到的时spark2.1.0的版本，仅供学习参考。

2.正文

　　2.1spark官网算子的分类

　　spark官网上面有对于算子的描述，但是spark对于算子的分类粒度较粗，大致为transformations和actions，其中的transformations是从一个RDD转换操作，结果仍然为RDD；而Actions则是从RDD操作变成非RDD结果。其中的transformations是由Actions触发的，即代码走到transformations的时候，并不会立即进行计算操作，而是实际等到需要action结果的时候才触发。

一.Transformations

map算子操作
flatMap算子操作
..算子操作

二.Actions

..算子操作

　　以上的分类，是按照ADD实际操作的结果来划分的，粒度相对而言较粗，实际在使用RDDapi的时候，可以将transformation的再细分，实际操作的时候，会涉及到算子的值类型是Value类型或者是Key-Value类型的两类。而且根据操作后返回的RDD内分区与输入的RDD分区，也可以由一个对应关系，所以更详细的划分类型为：

Transformations

Value类型的transformations算子

输入RDD分区与输出RDD分区一对一类型

1.map算子
2.flatMap算子
3.mapPartitions算子
4.glom算子

输入RDD分区与输出RDD分区多对一类型

5.union算子
6.cartesian算子

输入RDD分区是输出RDD分区子集类型

7.filter算子
8.distinct算子
9.subtract算子
10.sample算子
11.takeSample算子

Cache类型

12.cache算子
13.persist算子

Key-Value类型的transformations算子

输入RDD分区与输出RDD分区多对多类型

14.groupByKey算子

输入RDD分区与输出RDD分区一对一类型

15.mapValues算子

对单个或两个RDD聚集

16.combineByKey算子
17.reduceByKey算子
18.partitionBy算子
19.cogroup算子

连接

20.join算子
21.leftOutJoin和rightOutJoin算子

Actions

无输出

22.foreach算子

HDFS

23.saveAsTextFile算子
24.saveAsTextFile算子

SCALA或者JAVA等的集合,数字输出类型

25.collect算子
26.collectAsMap算子
27.reduceByKeyLocally算子
28.lookup算子
29.count算子
30.top算子
31.reduce算子
32.fold算子
33.aggregate算子

本文链接：https://www.cnblogs.com/fenngz/p/9802275.html

Spark学习笔记(一)----spark算子操作的更多相关文章

Java——异常

前言 Java中使用异常机制去处理程序错误，减少了错误处理代码的复杂度。不必在程序每个可能出现错误的地方都进行 […]...

HashMap源码中的位运算符&

引言最近在读HashMap源码的时候，发现在很多运算符替代常规运算符的现象。比如说用hash & ( […]...

Java——内部类

前言将一个类的定义放在另外一个类定义的内部，里面的就叫做内部类。内部类是一种非常有用的特性，它允许你把一些逻 […]...

Java——对象比较

前言本篇博客主要梳理一下Java中对象比较的需要注意的地方，将分为以下几个方面进行介绍: ==和equals […]...

练习1—参数传递、递归调用（Java）

1.方法参数的值传递机制 1.说明方法：必须由其所在类或对象调用才有意义。若方法含有参数：形参：方法声明时 […]...

Java基础知识

一.环境配置安装JDK，然后打开电脑点击属性 ——>点击高级系统设置 ——>点击环境变量 ——& […]...

JAVA基础知识

1,语言是美国Sun公司（Stanford University Network），在1995年推出的高级的编 […]...

Java基础篇

java基础 Java的特性优势简单性面向对象可移植性高性能分布式动态性【反射机制】多线程安 […]...

随机推荐

win10里面怎么获取最高管理员权限

Windows10专业版 1，按下win+R键唤出“运行”窗口，输入gpedit.msc。 2，这时打 […]...

关于出现Discuz! Database Error(1040) notconnect错误的解决办法【转】 – cccmon

关于出现Discuz! Database Error(1040) notconnect错误的解决办法【转】其 […]...

log4j2异步日志解读（二）AsyncLogger

前文已经讲了log4j2的AsyncAppender的实现【log4j2异步日志解读（一）AsyncAppen […]...

角色的转变-测试工程师职责转变

来新公司之前一直都是做测试执行居多，虽然在某OTA旅游企业做个测试组长带了三四个人，但是工作内容 […]...

文本信息生成二维码例子

文本信息生成二维码例子二维码的特点： 1. 高密度编码，信息容量大可容纳多达1850个大写字母或27 […]...

网站用户行为分析

网站用户行为分析步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看数据集预处理把数据集导入 […]...

WPF源代码分析系列一：剖析WPF模板机制的内部实现（五）

(注：本文是《剖析WPF模板机制的内部实现》系列文章的最后一篇文章，查看上一篇文章请点这里) 上一篇文章我们讨 […]...

Nginx-2.初学者使用

原文 Nginx有一个master进程和几个worker进程。master进程用来读取和评估配置文件，以及维护 […]...