1.3 Python所需的环境搭建
Python的使用需要配置对应的环境,本节将介绍Python环境的选择和相关环境的安装、配置。已经配置好Python编程环境的读者可以直接跳过本节。
1.3.1 Python环境的选择
对于刚上手的新手来说,Python的安装、环境配置和各种库的安装烦琐且容易出错。在这种情况下,Anaconda是个不错的选择。它是一个Python的集成环境管理器,包含大部分数据分析中常用的库,如NumPy、Pandas、scikit-learn等。
简单地说,我们要用Python来做数据分析,Anaconda就是一个贴心的管家,它已经准备好了绝大多数的东西,我们可以一键安装,直接“拎包入住”。
1.3.2 Anaconda的下载和安装
1.下载
Anaconda是开源的,可以直接从官网https://www.anaconda.com下载。在如图1-1所示的界面中选择合适的操作系统。
图1-1 Anaconda官网下载页面
跳转之后,根据自己的操作系统和版本选择对应的地址,写作本书时默认是适配Python 3.9的版本,单击之后会自动开始下载。
2.安装
下载好了之后,双击打开安装包,先后单击Next和I Agree按钮,如图1-2所示。
图1-2 初始安装选择
在安装页面可以默认选择All Users选项,如图1-3所示。因为我们一般都是用自己的计算机,所以选择Just Me还是All Users差别不大。
图1-3 安装用户选择
接下来一步的选择比较重要,我们只勾选下面的那个选项,上面的不勾选,如图1-4所示,否则可能会出现问题。
等待安装完毕,中间几步操作单击Next按钮即可。
最后有两个关于帮助和资源的选项(实际没什么用),不选,然后单击Finish按钮,如图1-5所示。
图1-4 安装的进阶选项
图1-5 安装完成页面的选择
到这一步,我们已经成功安装了Anaconda。
1.3.3 运行代码
1.什么是Jupyter Notebook
安装Anaconda的时候,安装程序默认帮我们安装了Jupyter Notebook。
Jupyter Notebook是一个轻量级的程序(IDLE),它以网页的形式打开,让我们可以直接在网页中编写、导入及运行代码。它的交互性很强,分小模块运行代码可以马上在网页中反馈结果,非常方便。其轻便和易用的特点很好地契合了数据分析的使用场景,本书中所有的代码实践都是基于Jupyter Notebook进行的。
2.启动Jupyter Notebook
由于我们刚安装好Anaconda,单击计算机左下角(这里以Windows 10为例),“最近添加”模块显示了Anaconda相关的内容,如图1-6所示。
图1-6 Windows 10的“最近添加”模块
也可以直接在搜索栏中搜索Jupyter Notebook,打出前几个字母就会模糊匹配到,如图1-7所示。
图1-7 在Windows 10的搜索栏中搜索Jupyter Notebook
单击Jupyter Notebook图标,正常情况下页面会自动跳转到如图1-8所示的页面,中间还会弹出一个小黑框的后台程序,不要管它,将其最小化即可。
图1-8 Jupyter Notebook初始页面
3.创建一个文件
Jupyter Notebook的功能和技巧有很多,我按照最主要的路径带大家熟悉一下。
在实际操作中,我们会产生很多的代码和文档,因此第一步是创建文件夹,以方便对代码进行分类。Jupyter Notebook中创建文件夹(Folder)的按钮在右上角,如图1-9所示。
图1-9 在Jupyter Notebook中创建文件夹
文件夹默认是未命名的,可以在选中文件夹之后单击Rename按钮来重命名,如图1-10所示。
图1-10 Jupyter Notebook文件重命名
然后进入文件夹,创建一个Python文件,如图1-11所示。
图1-11 在Jupyter Notebook中创建Python文件
在打开Python文件的界面中有几个区域:最上面是文件名,单击即可重命名;中间是文件编辑区,不太常用,因为几乎都有对应的快捷操作来替代;下面的长条框就是我们编写和运行代码的“主战场”,如图1-12所示。
4.运行代码
我们可以在代码编辑区直接输入代码print('Talk is cheap,show me the code'),然后按<Ctrl+Enter>组合键来运行代码,如图1-13所示。
图1-12 Jupyter Notebook代码编辑页面
图1-13 按<Ctrl+Enter>组合键运行代码的效果
代码成功运行并反馈打印结果。一般情况下,我们运行完一个小模块的代码之后,还会在新增的代码框中继续编写。如果我们编写完上面的代码,按<Alt+Enter>组合键来运行,则会在运行代码的同时新增代码框,方便后续代码的编写,如图1-14所示。
图1-14 按<Alt+Enter>组合键运行代码的效果
5.导入外部代码
除了自己编写代码,另一个常用的场景就是导入外部的代码。这本书所有的代码我已经整理并打包好了,大家可以通过前言中提供的方式直接下载。将下载后的代码导入Jupyter Notebook即可运行。
在Jupyter Notebook文件夹下,单击右上角的Upload按钮,如图1-15所示。
图1-15 导入文件的入口
再选择对应的路径和代码文件,如图1-16所示。
图1-16 导入路径及文件选择
之后数据清洗.ipynb文件被自动导入Jupyter中,此时只需单击“上传”按钮即可,如图1-17所示。
图1-17 最终上传选项
6.快捷操作一览
Jupyter Notebook的快捷操作分为命令模式和编辑模式两种。
当我们单击代码区块左边的区域,或者在编辑之后按<Esc>键时,区块左侧边框是蓝色的,代表命令模式,如图1-18所示。
图1-18 命令模式效果
编辑模式则是我们单击区块编辑代码的模式,这时左侧边框呈现绿色,代码框里有光标闪烁,如图1-19所示。
图1-19 编辑模式效果
两种模式下的快捷键Jupyter Notebook已经整理好,分别如图1-20和图1-21所示。
图1-20 命令模式快捷键
图1-21 编辑模式快捷键
大家可以把这里的快捷操作一览看作字典,当在实践过程中遇到问题时,再来查阅。
为了更好地学习本书内容,读者最好具备一定的Python基础知识。不过别担心,学习本书所需的Python基础知识并不多,你只要了解Python中的基础变量、常见数据类型、判断与循环语句、函数就足够了。当然,就算你不熟悉这些也没关系,我特意写了一个Python极简教程,以帮助有需要的读者快速入门。由于Python基础不是本书的重点,因此不在这里展开,在我的微信公众号“数据不吹牛”后台回复关键字“Python教程”即可获取该教程。