在Windows中安装PySpark环境

neodata-stduio 2021-08-09 原文

在Windows中安装PySpark环境

安装Python

可以选择安装官方版本的Python，或是Anaconda，对应的地址如下。

下载地址
Python：https://www.python.org/
Anaconda： https://www.anaconda.com/download/#windows
MiniConda：https://docs.conda.io/en/latest/miniconda.html

安装Java运行环境

安装Java运行环境

下载地址
在线安装包： https://www.java.com/en/download/
离线安装包：https://www.java.com/zh-CN/download/windows_offline.jsp

下载Spark和winutils工具

由于Hadoop开发是针对类Unix系统的，所以在Windows平台中没有原生的Hadoop安装包，但可以通过winutils工具作为替代。

spark下载地址: http://spark.apache.org/downloads.html
winutils下载地址: https://github.com/steveloughran/winutils

解压spark，将winutils拷贝到解压目录的bin目录下，如下动态图所示。

配置环境变量

添加环境变量 HADOOP_HOME
变量值是安装Spark的目录，如 E:\spark\spark-3.1.2-bin-hadoop2.7\
添加环境变量SPARK_HOME
变量值是安装Spark的目录，如 E:\spark\spark-3.1.2-bin-hadoop2.7\
将Spark安装目录添加环境变量中
将Spark安装目录bin文件夹添加到path变量中 E:\spark\spark-3.1.2-bin-hadoop2.7\bin

配置的过程如下动态图所示。

使用spark-shell

安装配置完毕后，对Spark Shell使用，以验证成功的安装。

打开spark-shell2.cmd，输入以下的scala命令。
打开一个Power Shell，然后输入命令：spark-shell2.cmd

scala> 1 + 1
scala> println("Hello World!")
var myVar : String = "hello"

操作如下动态图所示。

使用pyspark-shell

打开 pyspark2.cmd，输入以下Python命令。
打开一个Power Shell，然后输入命令：pyspark2.cmd

from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.printSchema()

操作如下动态图所示。

使用sparkR-shell

打开 sparkR2.cmd，输入以下R语言命令。
打开一个Power Shell，然后输入命令：sparkR2.cmd

emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11","2015-03-27")),
   stringsAsFactors = FALSE
)
df <- createDataFrame(emp.data)

操作如下动态图所示。

版权声明：本文为neodata-stduio原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/neodata-stduio/p/15119055.html

在Windows中安装PySpark环境的更多相关文章

个性化推荐调优：重写spark推荐api
最近用spark的mlib模块中的协同过滤库做个性化推荐。spark里面用的是als算法，本质上是矩阵分解sv […]...
Spark Mllib里的如何对两组数据用皮尔逊计算相关系数 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
　　不多说，直接上干货！ import org.apache.spark.mllib.stat.Sta […]...
Spark RDD基本概念、宽窄依赖、转换行为操作
目录 RDD概述 RDD的内部代码案例小总结转换、行动算子宽、窄依赖 Reference 本文介绍一下 […]...
Spark SQL / Catalyst 内部原理与 RBO
Spark SQL / Catalyst 内部原理与 RBO 原创文章，转载请务必将下面这段话置于文章开头处 […]...
spark 系列之一 RDD的使用
spark中常用的两种数据类型，一个是RDD，一个是DataFrame，本篇主要介绍RDD的一些应用场景见代码 […]...
spark MLlib 概念 1：相关系数（ PPMCC or PCC or Pearson\’s r皮尔森相关系数） and Spearman\’s correlation（史匹曼等级相关系数）
皮尔森相关系数定义：协方差与标准差乘积的商。 Pearson\’s correlation co […]...
想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！
本文始发于个人公众号：TechFlow，原创不易，求个关注今天是spark专题的第六篇文章，这篇文章会介绍一 […]...
Spark RDD的弹性到底指什么
RDD（Resiliennt Distributed Datasets）抽象弹性分布式数据集对于Spark来说 […]...

随机推荐

30s源码刨析系列之函数篇
由浅入深、逐个击破 30SecondsOfCode 中函数系列所有源码片段，带你领略源码之美。前言由浅入深 […]...
Vue 百度地图显示规划路线
Vue 百度地图显示规划路线 1.首选引入相应的文件（建议单页面引入）（如有问题找上一篇博客园）2.区别就是需 […]...
有Bug？你的代码神兽选对了吗
传说每一个优秀的程序员都有自己专属的镇码神兽通过工具网址 http://www.makepic.net/T […]...
高光谱图像重构常用评价指标及其Python实现
高光谱图像重构评价指标及其Python实现高光谱图像重构的评价指标通常有三项。其中部分指标从普通图像变化而来 […]...
代码重构与单元测试——继续将相应的方法进行移动（八）
通过“代码重构与单元测试——“提取方法”重构（三） ”至“代码重构与单元测试——使用“以查询取代临时变量”再次 […]...
由js深拷贝引起的对内存空间的一些思考
数据类型 js常用数据类型分为基本类型和引用类型基本类型：null、undefined、数值型、字符串型、布 […]...
Unity5.0 手动激活 – 手撕高达的村长
Unity5.0 手动激活提供Unity5.0.1.f1(32-bit)下载http://pan.baidu […]...
痞子衡嵌入式：i.MXRT中FlexSPI外设对AHB Burst Read特性的支持
　　大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是FlexSPI外设对AHB Burst R […]...

展开目录

目录导航