Python数据挖掘入门与实践
上QQ阅读APP看书,第一时间看更新

1.2 使用Python和IPython Notebook

本节将介绍Python的安装方法,及本书所用到的开发环境IPython Notebook的搭建方法。此外,还将安装第一部分示例代码所用到的numpy库。

1.2.1 安装Python

Python是一门出色的、应用范围广泛且简单易用的编程语言。

本书将使用Python 3.4版本,你可以根据自己的系统从Python官网https://www.python.org/downloads/下载合适的版本。

Python主要有两大版本Python 3.4和Python 2.7。记得要下载安装Python 3.4,本书所有代码都在该版本中测试过。

本书假定读者了解编程和Python相关知识。本书不要求你是Python编程高手,当然有较多的知识储备学起来更容易。

如果你没有任何编程经验,我建议你先看看《Python学习手册》。

Python官网为新手准备了两份在线教程。

❑ 非程序员背景,想通过Python学习编程:

https://wiki.python.org/moin/BeginnersGuide/NonProgrammers

❑ 程序员背景,想专门学习Python:

https://wiki.python.org/moin/BeginnersGuide/Programmers

Windows用户设置好环境变量后,才能在命令行中使用Python。方法如下。首先,找到Python 3的安装路径,默认为C:\Python34。接下来,在命令行(cmd程序)中输入以下命令:将环境设置为PYTHONPATH=%PYTHONPATH%; C:\Python34Python官网介绍了Windows系统的两种环境变量设置方法。建议直接把Python的安装路径添加到Path中,位置如下:计算机—属性—高级系统设置—环境变量,这也是官网介绍的第一种方法。译者使用的就是这一种。作者讲的是第二种方法,详见https://docs.python.org/3.4/using/windows.html#excursus-setting-environment-variables。——译者注。如果你将Python安装到其他路径下,请根据实际情况调整上述命令中的C:\Python34。

安装好Python,打开命令提示符,输入以下命令:

     $ python3
     Python 3.4.0 (default, Apr 112014, 13:05:11)
     [GCC 4.8.2] on Linux
     Type "help", "copyright", "credits" or "license" for more information.
     >>> print("Hello, world!")
     Hello, world!
     >>> exit()

请注意,我们用美元符号($)表示紧跟在后面的语句是一条命令,要输入到终端(Unix系统中的shell,Windows系统中的cmd程序)。美元符号及后面的空格无须输入。输入后面的内容,然后敲回车执行命令。

运行完经典的“Hello, world!”例子后,退出Python,继续安装用来运行Python代码的更为高级的开发环境IPython Notebook。

Python 3.4内置了Python的包管理器pip,用它来安装Python包很方便。使用$ pip3 freezeWindows用户需要事先把pip添加到环境变量中,才能在命令行使用。——译者注命令可以验证pip是否能正常运行,该命令还会输出你用它安装过哪些包。

1.2.2 安装IPython

Python开发平台IPython提供多种Python开发工具和开发环境,比标准解释器多出好多功能。IPython Notebook功能强大,有了它,你就可以在Web浏览器中编写程序。它会为代码添加样式,显示运行结果,允许你为代码添加注释。用它来做数据分析再好不过,我们将把它作为主要的开发环境。

请在命令提示符后(注意不是Python中),输入以下命令安装IPython:

     $ pip install ipython[all]

如果要为系统所有用户安装IPython,需要管理员权限。如果你只想自己用或者没有权限做系统级别的变更,则使用以下命令为当前用户安装即可:

     $ pip install --user ipython[all]

以上命令只为当前用户安装IPython——该系统的其他用户将无法使用。安装过程中若遇到问题,请查阅官方文档,了解更多帮助信息:http://ipython.org/install.html

安装好IPython Notebook后,运行方式如下:

     $ ipython3 notebook

上述命令帮你做了两件事。首先,在命令提示符界面创建一个IPython Notebook实例。其次,打开Web浏览器,连接到实例,你可以在此创建新的笔记本文件笔记本文件,英文为“notebook”,即用IPython Notebook创建的文件。——译者注。Notebook界面如下图所示(注意图中的home/bob为当前用户的主目录,你看到的是自己的主目录,所以目录名称很可能不同)。

IPython Notebook的关闭方法如下:打开运行实例的终端界面(就是你之前用IPython命令创建Notebook实例的界面),按下Ctrl+C键,系统提示Shutdown this notebook server (y/[n])?,询问你是否关闭笔记本服务器。输入y,敲回车,IPython Notebook就会关闭。

1.2.3 安装scikit-learn库

scikit-learn是用Python开发的机器学习库,它包含大量机器学习算法、数据集、工具和框架。它以Python科学计算的相关工具集为基础,其中numpy和scipy等都针对数据处理任务进行过优化,因此scikit-learn速度快、扩展性强,新手会觉得它很好用,老手也不会觉得它功能逊色。更多内容请见第2章。

scikit-learn库可用Python 3提供的pip工具进行安装,之前没有安装NumPy和SciPy的话,也会顺便安装。用管理员/根用户权限打开一个终端,然后输入以下命令:

     $ pip3 install -U scikit-learn

Windows用户在安装scikit-learn之前,可能需要先安装NumPy和SciPy。安装指南请见http://www.scipy.org/install.html

Ubuntu或红帽(Red Hat)等Linux系统的用户也许希望用自带的包管理器安装scikit-learn,但是它们提供的版本很可能不是最新的,所以在安装前需仔细核对版本。本书使用的版本不能低于0.14,否则书中代码可能无法运行。

如何通过编译源文件进行安装,以及更多的安装指南,请见官方文档:

http://scikit-learn.org/stable/install.html