大数据实战-Spark实战技巧

hulichao 2021-03-07 原文

1.连接mysql

–driver-class-path mysql-connector-java-5.1.21.jar
Uploading file...
在数据库中，SET GLOBAL binlog_format=mixed;

2.Spark中使用Hive的udf

同样使用—jars 才行

3.Spark jupyter使用

https://www.jb51.net/article/163641.htm

https://my.oschina.net/albert2011/blog/754174

使用jupyter-notebook –ip hostname -i来启动

4.Spark使用hive的orc解析格式

spark.sql.hive.convertMetastoreOrc=true

使用spark写入hive表中的数据，可能会出现空指针问题或者数据越界问题，问题原因是spark的元数据解析问题，而不是hive的元数据解析问题

5.row_number排序算子的使用

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number
import org.apache.spark.sql.functions._

1.spark.sql(sql).withColumn(“rn”, row_number().over(Window.partitionBy(‘f_trans_id).orderBy(col(“f_modify_time”).desc)))
2.spark.sql(sql).withColumn(“rn”, row_number().over(Window.partitionBy(‘f_trans_id).orderBy(-col(“f_modify_time”))))

3.val df = spark.sql(sql)

df.withColumn(“rn”, row_number().over(Window.partitionBy(‘f_trans_id).orderBy(-df(“f_modify_time”))))

4.spark.sql(sql).withColumn(“rn”, row_number().over(Window.partitionBy(‘f_trans_id).orderBy(-‘f_modify_time)))

注意：-的方式，经过测试，不稳定，有时可以，有时不可以

6.broadcast广播表

sc.broadcast是广播数据，一般用于rdd广播，而下面的方式用于广播表

import org.apache.spark.sql.functions.broadcast

broadcast(tableData).createOrReplaceTempView
吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。
更多请关注
file

本文链接：https://www.cnblogs.com/hulichao/p/14497147.html

随机推荐

python基础之程序交互与数据类型

一、程序交互 1、什么是程序交互？ name=input(\’输入用户名：\’) #无 […]...

Hadoop源生实用工具之distcp

1 概览 DistCp（Distributed Copy）是用于大规模集群内部或者集群之间的高性能拷贝工具。 […]...

js给文本框赋值 value与innerHTML

<input type=”test” name=”testName& […]...

常见机器学习算法比较

本文转载自：http://www.afenxi.com/post/20664 　　摘要：机器学习算法太多了 […]...

js内置对象

JS内置对象也被称为内部类。所谓内部类，就是JavaScript里面封装好了的类。 JavaScript中 […]...

简析设计模式——0简单工厂

简析设计模式——0简单工厂一简介简单工厂模式是将对象的创建和对象本身业务处理分离以降低系统的耦合 […]...

Flutter Weekly Issue 51

...

【转】您可能没有权限使用网络资源,请与这台服务器的管理员联系以查明您是否有访问权限\” 的解决办法 – 路缘

转自 http://hi.baidu.com/jspj/blog/item/73807b8150bb16dbb […]...