1.2 使用Python和IPython Notebook
本节将介绍Python的安装方法,及本书所用到的开发环境IPython Notebook的搭建方法。此外,还将安装第一部分示例代码所用到的numpy库。
1.2.1 安装Python
Python是一门出色的、应用范围广泛且简单易用的编程语言。
本书将使用Python 3.4版本,你可以根据自己的系统从Python官网https://www.python.org/downloads/下载合适的版本。
Python主要有两大版本Python 3.4和Python 2.7。记得要下载安装Python 3.4,本书所有代码都在该版本中测试过。
本书假定读者了解编程和Python相关知识。本书不要求你是Python编程高手,当然有较多的知识储备学起来更容易。
如果你没有任何编程经验,我建议你先看看《Python学习手册》。
Python官网为新手准备了两份在线教程。
❑ 非程序员背景,想通过Python学习编程:
https://wiki.python.org/moin/BeginnersGuide/NonProgrammers
❑ 程序员背景,想专门学习Python:
https://wiki.python.org/moin/BeginnersGuide/Programmers
Windows用户设置好环境变量后,才能在命令行中使用Python。方法如下。首先,找到Python 3的安装路径,默认为C:\Python34。接下来,在命令行(cmd程序)中输入以下命令:将环境设置为PYTHONPATH=%PYTHONPATH%; C:\Python34。如果你将Python安装到其他路径下,请根据实际情况调整上述命令中的C:\Python34。
安装好Python,打开命令提示符,输入以下命令:
$ python3 Python 3.4.0 (default, Apr 112014, 13:05:11) [GCC 4.8.2] on Linux Type "help", "copyright", "credits" or "license" for more information. >>> print("Hello, world!") Hello, world! >>> exit()
请注意,我们用美元符号($)表示紧跟在后面的语句是一条命令,要输入到终端(Unix系统中的shell,Windows系统中的cmd程序)。美元符号及后面的空格无须输入。输入后面的内容,然后敲回车执行命令。
运行完经典的“Hello, world!”例子后,退出Python,继续安装用来运行Python代码的更为高级的开发环境IPython Notebook。
Python 3.4内置了Python的包管理器pip,用它来安装Python包很方便。使用$ pip3 freeze命令可以验证pip是否能正常运行,该命令还会输出你用它安装过哪些包。
1.2.2 安装IPython
Python开发平台IPython提供多种Python开发工具和开发环境,比标准解释器多出好多功能。IPython Notebook功能强大,有了它,你就可以在Web浏览器中编写程序。它会为代码添加样式,显示运行结果,允许你为代码添加注释。用它来做数据分析再好不过,我们将把它作为主要的开发环境。
请在命令提示符后(注意不是Python中),输入以下命令安装IPython:
$ pip install ipython[all]
如果要为系统所有用户安装IPython,需要管理员权限。如果你只想自己用或者没有权限做系统级别的变更,则使用以下命令为当前用户安装即可:
$ pip install --user ipython[all]
以上命令只为当前用户安装IPython——该系统的其他用户将无法使用。安装过程中若遇到问题,请查阅官方文档,了解更多帮助信息:http://ipython.org/install.html。
安装好IPython Notebook后,运行方式如下:
$ ipython3 notebook
上述命令帮你做了两件事。首先,在命令提示符界面创建一个IPython Notebook实例。其次,打开Web浏览器,连接到实例,你可以在此创建新的笔记本文件。Notebook界面如下图所示(注意图中的home/bob为当前用户的主目录,你看到的是自己的主目录,所以目录名称很可能不同)。
IPython Notebook的关闭方法如下:打开运行实例的终端界面(就是你之前用IPython命令创建Notebook实例的界面),按下Ctrl+C键,系统提示Shutdown this notebook server (y/[n])?,询问你是否关闭笔记本服务器。输入y,敲回车,IPython Notebook就会关闭。
1.2.3 安装scikit-learn库
scikit-learn是用Python开发的机器学习库,它包含大量机器学习算法、数据集、工具和框架。它以Python科学计算的相关工具集为基础,其中numpy和scipy等都针对数据处理任务进行过优化,因此scikit-learn速度快、扩展性强,新手会觉得它很好用,老手也不会觉得它功能逊色。更多内容请见第2章。
scikit-learn库可用Python 3提供的pip工具进行安装,之前没有安装NumPy和SciPy的话,也会顺便安装。用管理员/根用户权限打开一个终端,然后输入以下命令:
$ pip3 install -U scikit-learn
Windows用户在安装scikit-learn之前,可能需要先安装NumPy和SciPy。安装指南请见http://www.scipy.org/install.html。
Ubuntu或红帽(Red Hat)等Linux系统的用户也许希望用自带的包管理器安装scikit-learn,但是它们提供的版本很可能不是最新的,所以在安装前需仔细核对版本。本书使用的版本不能低于0.14,否则书中代码可能无法运行。
如何通过编译源文件进行安装,以及更多的安装指南,请见官方文档: