Docker 一键帮你搞定数据开发环境


Docker 一键帮你搞定数据开发环境

文章插图
文 | Vik Paruchuri
译 | EarlGrey
推荐 | 编程派公众号(ID:codingpy)
数据科学开发环境配置起来让人头疼,会碰到包版本不一致、错误信息不熟悉和编译时间漫长等问题 。这很容易让人垂头丧气,也使得迈入数据科学的这第一步十分艰难 。而且这也是一个完全不常见的准入门槛 。
还好,过去几年中出现了能够通过搭建孤立的环境来解决这个问题的技术 。本文中我们就要介绍的这种技术名叫Docker 。Docker能让开发者简单、快速地搭建数据科学开发环境,并支持使用例如Jupyter notebooks等工具进行数据探索 。
要使用Docker,我们要先下载含有相关包(package)和数据科学工具的镜像文件 。之后,我们可以通过该镜像,在数秒之内就启动一个数据科学开发环境,免去了手动安装包的麻烦 。这个环境,也被成为Docker容器(container) 。容器解除了配置的问题——当你启动一个Docker容器后,它就已经处于了良好的状态,所有的包都是可以正常运转的 。
Docker 一键帮你搞定数据开发环境

文章插图
除了降低进入数据科学的门槛之外,Docker还可以让我们快速搭建拥有不同Python版本和安装了不同包的孤立环境,不像虚拟环境(virtualenv)那样还要重新安装包 。
在本文中,我们将介绍Docker的基础知识,如何安装Docker以及如何利用Docker容器快速地在本地机器上搭建数据科学环境 。
 
虚拟机能够创建虚拟机的软件已经问世数十年,可以让你在本地电脑上模拟其他的系统环境 。举个例子,即使你的电脑运行的是windows操作系统,你仍可以通过虚拟机运行linux系统 。这可以让你在不重装系统的前提下,使用Linux——也就是说,Linux系统是虚拟化运行的,所以你可以从Windows系统访问虚拟机 。基本上,你可以在点击该软件的程序图标之后,看到弹出的窗口中乃是一个Linux系统桌面 。而虚拟机需要镜像来启动,也就是你必须先拥有一个目标系统的镜像,才能启动相应的虚拟机 。如果你想使用Linux,你使用的镜像就得包含创建Linux环境所必须的全部文件 。
 
容器尽管虚拟机有诸多好处,例如能够使在Windows平台进行Linux开发成为现实,但是也有着自身的缺陷 。首先,虚拟机的启动时间很长,要消耗大量的系统资源 。另外,在利用镜像创建完虚拟机中,很难在安装完所需要的包后,再将这个镜像保存,创建为新的镜像 。而Docker提供的Linux容器,则通过让多个孤立环境在同一台机器上运行,解决了这个问题 。你可以把容器看作是一种更快、更简单地使用虚拟机的方法 。
但是,容器的使用却有一点麻烦,而且管理和发布容器镜像也不容易 。作为开发人员,我们希望能够快速下载并启动一个拥有指定包和工具配置的数据科学环境 。例如,你肯定会希望能快速启动一个安装了Jupyter notebook、spark和pandas的容器 。
 
DockerDocker容器的里层包裹的是Linux容器(a layer over Linux containers),可以支持更简单地对容器进行管理和发布 。使用Docker,可以很容易地下载具备相应包的镜像,并且快速启动 。另外,Docker是跨平台的,支持包括mac、Windows和Linux等系统 。
作为创建孤立Python环境的另一种方式,虚拟环境(virtual environment)也有这些优势 。但是Docker相较于虚拟环境的主要优势有:
  • 能够快速启动 。如果你想马上就开始进行数据分析,使用Docker就免去了你等待各种包进行安装的时间 。
  • 配置测试无误 。很多时候,要正常安装Python包会,需要以安装某些系统包为前提,并只有在进行相应设置后才能正常使用 。如果设置不当,会引起一些很奇怪的错误 。但是使用Docker后,这些包就已经配置好了,可以立即使用 。
  • 跨平台一致性 。Python中的包是可以跨平台使用的,但是在Windows和Linux平台下有些不同,而且还有部分依赖包无法在Windows中安装 。但是由于Docker容器运行的都是Linux环境,所以它们是高度一致的 。
  • 能够设置checkpoint并且进行恢复 。你可以往Docker镜像中安装包,然后将那个checkpoint下的环境创建成一个新的镜像 。这让你能够快速撤销或者回滚配置 。
【Docker 一键帮你搞定数据开发环境】运行一个Docker镜像,就相当于创建了一个Docker容器 。在本文中,我们在容器中运行一个Jupyter notebook,然后通过浏览器界面来处理数据 。


推荐阅读