python之Anaconda与Jupyter
Anaconda
Anaconda [水蟒] 与Jupyter
初学 Python 者自学 Anaconda 的正确姿势是什么?
Anaconda 和 Jupyter(包括Jupyter Notebook和JupyterLab,其中JupyterLab是从Notebook发展而来的)已成为数据分析的标准环境。
简单来说,Anaconda是包管理器和环境管理器,Jupyter可以将数据分析的代码、图像和文档全部组合到一个web文档中。
1.Anaconda是什么?
2.如何安装?
3. 如何管理包?
4.Jupyter notebook如何快速上手?
1、Anaconda是什么?
你可能已经安装了 Python,那么为什么还需要 Anaconda?有以下3个原因:
1)Anaconda 附带了一大批常用数据科学包,它附带了 conda、Python 和 150 多个科学包及其依赖项。因此你可以立即开始处理数据。
2)管理包
Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。
在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。
3)管理环境
为什么需要管理环境呢?
比如你在A项目中用了 Python 2,而新的项目B老大要求使用Python 3,而同时安装两个Python版本可能会造成许多混乱和错误。这时候 conda就可以帮助你为不同的项目建立不同的运行环境。
还有很多项目使用的包版本不同,比如不同的pandas版本,不可能同时安装两个 Numpy 版本,你要做的应该是,为每个 Numpy 版本创建一个环境,然后项目的对应环境中工作。这时候conda就可以帮你做到。
总结Anaconda的三大特点:
- 内置python,高度集成python数据科学生态
- 拥有强大的包管理工具-conda
- 可用超过600个python数据科学库
【注:conda和pip都可以管理python库,但最大的不同在于conda是跨平台且不限语言的,而且可以独自创建虚拟环境。
因为conda立足于数据科学生态,不像pip可以安装几乎所有的python库(来自pypl),conda只能安装anaconda里支持的数据科学库(600多个)。】
2. 如何安装Anaconda?
Anaconda 可用于多个平台( Windows、Mac OS X 和 Linux)。你可以在下面地址上找到安装程序和安装说明。根据你的操作系统是32位还是64位选择对应的版本下载。
如果计算机上已经安装了 Python,安装不会对你有任何影响。实际上,脚本和程序使用的默认 Python 是 Anaconda 附带的 Python,所以安装完Anaconda已经自带安装好了Python,不需要你再安装Python了。
注意:如果你是windows 10系统,注意在安装Anaconda软件的时候,右击安装软件→选择以管理员的身份运行。
3.如何管理包?
安装了 Anaconda 之后,就可以很方便的管理包了(安装,卸载,更新)。
按下图点击菜单栏,打开Anaconda Navigator
然后在Anaconda Navigator中按下图操作
1)列出已安装的包
2)安装或者更新包
下图中第5步,“apply”表示安装这个包,‘clear’表示删除已经安装的包。
如果没有“apply” 这个按钮,表示这个包已经安装过了。
Jupyter notebook
1.Jupyter notebook 是什么?
在没有notebook之前,在IT领域工作的我都是这样工作的:
在普通的 Python shell 或者在IDE(集成开发环境)如Pycharm中写代码,然后在word中写文档来说明你的项目。
这个过程很反锁,通常是写完代码,再写文档的时候我还的重头回顾一遍代码。最蛋疼的地方在于,有些数据分析的中间结果,我还的重新跑代码,然后把结果弄到文档里给客户看。
有了notebook之后,我的世界突然美好了许多,因为notebook 可以直接在代码旁写出叙述性文档,而不是另外编写单独的文档。也就是它可以能将代码、文档等这一切集中到一处,让用户一目了然。
Jupyter notebook(http://jupyter.org/) 是一种 Web 应用,能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。
2.如何启动 Jupyter notebook?
对于做数据分析这么有用的神器,不安装使用下是不是很遗憾?
安装 Jupyter 的最简单方法是使用 Anaconda。该发行版附带了 Jupyter notebook。你能够在默认环境下使用 notebook。
单击Launch,启动notebook后,在浏览器中会自动打开notebook页面地址:http://localhost:8888
3.新手如何快速上手notebook?
1)顶部的3个选项卡
顶部的3个选项卡是:Files(文件)、Running(运行)和 Cluster(集群)。
Files(文件)显示当前“notebook工作文件夹”中的所有文件和文件夹。【默认的工作文件夹一般是:C:\Users\xxx用户】
点击 Running(运行)选项卡会列出所有正在运行的 notebook。可以在该选项卡中管理这些 notebook。
Clusters一般不会用到。因为过去在 Clusters(集群)中创建多个用于并行计算的内核。现在,这项工作已经由 ipyparallel 接管。
修改工作文件夹
但是很多时候默认的“notebook工作文件夹”不是一个空的文件夹,不便于我们的数据分析工作,如何修改你的“notebook工作文件夹”呢?
有2个办法可以解决,选择下面其中一个适合你的方法就可以:
方法1:windows系统在菜单栏里修改
在下图3的地方点击鼠标右键,选择属性。
将下图1和2的地方都替换成,你自己的“notebook工作文件夹”(最好是自己新建个空的文件夹,然后路径修改成这个文件夹的路径)修改后记得保存文件。
例如 我自己电脑上新建的一个空文件夹是c:\houzi,修改后如下:
注意:目标一栏的地址需要用” “括起来。
修改后点击”确定”按钮,然后再启动notebook就生效了【直接启动notebook,不要从anaconda中lanuch】。
方法2:通过配置文件修改,只适合从命令行启动notebook
【省略】
2)如何创建一个新的notebook?
像下面图片中一样,在右侧点击“New”(新建),创建新的 notebook、文本文件、文件夹或终端。
“Notebooks”下的列表显示了你已安装的内核,这里直接选择你电脑上默认的环境名即可(名称可以与下面图的不一样)。
在这里你可以输入自己人生中的第一行Python代码Hello world。然后点击图中的运行按钮,会执行你当前所在的代码,其实我更喜欢用快捷键(键盘上同时按住ctrl+enter键)来执行代码。
notebook 中的大部分工作均在代码单元格中完成。这是编写和执行代码的地方。在代码单元格中可以执行多种操作,例如编写代码、展示数据分析结果等。在一个单元格中执行的任何代码在所有其他单元格中均可用。
当Cell前出现*,表示当前cell程序正在运行,或者它前面的cell正在运行。
添加标题等注释
可以通过使用其他类型的cells来得到更加优美,解释性更强的notebook。
我们在notebook的顶部添加一个标题。
做法是,选择第一个cell,点击Insert->Insert cell above,则在这个cell上面会添加一个新的单元。但是这个新cell默认是code类型,我们可以通过cell type菜单选择Heading或Markdown替换之前的code类型,这样就可以添加标题了。
不同的标题等级:
这个cell以#开头,表示一级标题。如果你想列子标题的话,参考下面的方法:
-
# First level title
-
## Second level title
-
### Third level title
3)关闭 notebook文件
通过在服务器主页上选中 notebook 旁边的复选框,然后点击“Shutdown”(关闭),你就可以关闭各个 notebook。
但是,在这样做之前,请确保你保存了工作!否则,在你上次保存后所做的任何更改都会丢失。同时如果不保存,你下次运行 notebook 时,你还需要重新运行代码。
<img src=”https://pic2.zhimg.com/50/v2-6f5564e24bd90c67fda75883a787cf8c_hd.jpg?source=1940ef5c” data-caption=”” data-size=”normal” data-rawwidth=”615″ data-rawheight=”294″ class=”origin_image zh-lightbox-thumb” width=”615″ data-original=”https://pic1.zhimg.com/v2-6f5564e24bd90c67fda75883a787cf8c_r.jpg?source=1940ef5c”>
4)如何上传notebook文件?
其他人写好的notebook文件发你,你想在自己电脑上运行,怎么办?
点击下图红框upload(上传文件)
<img src=”https://pic3.zhimg.com/50/v2-847c93e0f08515dc137095c56c8bedf9_hd.jpg?source=1940ef5c” data-caption=”” data-size=”normal” data-rawwidth=”1167″ data-rawheight=”192″ class=”origin_image zh-lightbox-thumb” width=”1167″ data-original=”https://pic1.zhimg.com/v2-847c93e0f08515dc137095c56c8bedf9_r.jpg?source=1940ef5c”>
5)如何共享你的notebook?
点击File->Download as,你可以选择多种格式下载你的notebook。一般我都会根据下面的用途来选择不同的下载格式:
1)如果我想和客户分享我的数据分析成果,我会选择将notebook下载为HTML文件。
2)如果我希望将自己的数据分析成果和代码嵌入到项目中,比如为药店管理系统做个数据分析子模块,我就会选择Python(.py)模块,这可以将我的代码融入项目中,成为子模块,方便和其他开发人员共同完成任务。
3)如果要在博客或文档中使用 notebook,我就选择Markdown格式。
4)默认的notebook文件后缀是.ipynb
6)关闭Jupler notebook服务器
直接关闭打开notebook的页面就可以。再次提醒,这会立即关闭所有运行中的 notebook,因此,请确保你保存了工作!
关闭notebook服务器后,下次启动再打开notebook,当你继续在该notebook中写代码时,发现之前的变量无法访问了。需要你在该notebook的Kernerl选项卡中选择“Run All”重新编译下之前的代码。
<img src=”https://pic3.zhimg.com/50/v2-8be0aaad666647bec7cc281bdbfeb6b8_hd.jpg?source=1940ef5c” data-caption=”” data-size=”normal” data-rawwidth=”478″ data-rawheight=”267″ class=”origin_image zh-lightbox-thumb” width=”478″ data-original=”https://pic2.zhimg.com/v2-8be0aaad666647bec7cc281bdbfeb6b8_r.jpg?source=1940ef5c”>
如果你实践了上面的每一步,恭喜你,已经入门学会了 notebook。
上面的命令也不需要你记住,只有你后面经常使用notebook,自然就熟练了。