spark-遇到问题小结

parkin 2018-02-02 原文

spark-遇到问题小结

　　经常会遇到类似 shuffle 0 的错误，或者 connect refuse 。主要是shuffle 导致内存不足引起的。shuffle 分为 shuffle read 和write 。

　　1. shuffle read 是读其它partition 发来的数据，从缓存中读。

　　2. shuffle write 是写数据到缓存准备发给其他partition。

　　当数据分片partition过多而且每个partition的大小很小的时候，当这个时候触发shuffle就会有大量的网络io和shuffle read 的操作。这时候要通过coalesce 或repartition在之前的某一步提前把数据进行合并，来防止产生过多partition。

　　当数据分片不多而每个partition很大的时候，这时候要是shuffle也会造成大量的shuffle read 和write操作，而导致内存不足，这时候也需要通过coalesce 或repartition在之前的某一步提前把数据打散放小。

　　为什么会出现这样情况呢，应该是数据的partition的数量决定了task的数量。所以经常在调优的时候，经常要注意每一步shuffle后数据partition的大小和partition的数量。这个要从executor的内存，shuffle read 、write的大小来看。

posted on 2018-02-02 16:01 parkin 阅读(…) 评论(…) 编辑收藏

本文链接：https://www.cnblogs.com/parkin/p/8405619.html

spark-遇到问题小结的更多相关文章

苹果Mac Big sur菜单栏不显示WiFi的解决方法

苹果Mac Big sur菜单栏不显示WiFi的解决方法苹果Mac Big sur找不到wifi怎么办？想要 […]...

机器学习中特征的处理及选择

基础概念特征工程是通过对原始数据的处理和加工，将原始数据属性通过处理转换为数据特征的过程，属性是数据本身具有 […]...

CTF之MISC练习一四十九、Bubble Babble Binary Data Encoding 编码

一、flag的提交格式 flag{th1s_!s_a_d4m0_4la9} 二、PDF隐写 writeup: […]...

使用SQL Server Data Tools (SSDT)比较和同步两个数据库的架构或者数据

使用场景：我们在开发时修改了数据库的架构，如果手动管理和同步不同的数据库版本（比如开发和生产环境）可能比较繁 […]...

wx.setStorageSync(KEY,DATA) – taiyang2014

wx.setStorageSync(KEY,DATA) wx.setStorageSync(KEY,DATA) […]...

Syncios Data Transfer for Mac(IOS数据传输工具)

今天小编为用户推荐Syncios Data Transfer Mac一款易于使用的IOS数据传输工具，Sync […]...

微软云计算 Massive Data 处理语言Scope 1

　　Massive Data处理一直是云计算中很重要的一个环节.目前像Google,Yahoo在相关方面都有自 […]...

Azure Data Factory（五）Blob Storage 密钥管理问题

一，引言　　之前讲解的ADF 集成Azure DevOps 实现CI/CD，在 Releases Pipel […]...

随机推荐

简明PR教程

注意：本文供培训使用且仅为第一版作者也不打算继续更新本篇文章最早是在为内部培训时所编写的文章有些疏漏且没有 […]...

51驱动LCD1602

1602 采用标准的 16 脚接口，其中: 第 1 脚：VSS 为地电源第 2 脚：VDD 接 5V 正电源 […]...

oracle中exp,imp(导入，导出)的使用详解 – jack_Meng

oracle中exp,imp(导入，导出)的使用详解今天说说Oracle数据库的导入(imp.exe)和导出 […]...

js算法初窥06（算法模式03-函数式编程）

　　　在解释什么是函数式编程之前，我们先要说下什么是命令式编程，它们都属于编程范式的一种。命令式编程其实就是一 […]...

CreateRemoteThread简单应用

要实现线程的远程注入必须使用Windows提供的CreateRemoteThread函数来创建一个远程线程该 […]...

CNN(Convolutional Neural Network)

CNN(Convolutional Neural Network) 卷积神经网络（简称CNN）最早可以 […]...

java运行shell命令，chmod 777 xxx，改变权限无效的解决的方法。

在java程序中运行shell命令，改变文件的权限。能够在命令行中运行 chmod 777 <span […]...

JVM系列【3】Class文件加载过程

JVM系列笔记目录虚拟机的基础概念 class文件结构 class文件加载过程 jvm内存模型 JVM常用指 […]...

spark-遇到问题小结