提问

#楼主# 2019-9-12

跳转到指定楼层
本帖最后由 社群技术交流 于 2019-9-12 16:59 编辑

作者:光环云 田帆


在AWS众多官方AMI中有一个比较特殊的版本就是适用于机器学习的操作系统Deep Learning AMI, 它内部预先集成了很多机器学习的框架,比如TensorFlow, Mxnet等。如下图展示为中国区的Deep Learning AMI Ubantu。
1.png
此系统为了方便客户进行机器学习,免除了安装所需框架的步骤。方便客户去直接进行机器学的操作。让客户能够把精力都聚焦在业务上。结合AWS提供的GPU实例,能够省去客户在机器学习前的安装、部署、搭建框架的繁复操作。但是,根据AWS官方的推荐,此系统更加适合于一次性机器学习任务。换句话说,如果您已经准备好大量的数据源,准备临时或者批次性的跑机器学习的任务,这个系统搭配GPU的实例可是实现快速的开始执行机器学习任务。下图为正常情况下Deep Learning AMI中预装的机器学习环境。
2.jpg
您可以选择您需要的环境,然后输入后面相应的命令之后就可以进入环境。非常简单方便。
不过,在客户的实际生产应用中会遇到一些问题,我们需要特别注意。由于AWS 的AMI都是由AWS后台来进行维护的,所以在重启或者停机之后再启动实例时,有可能会遇到使用此AMI的实例无法加载GPU的情况。正常情况当选择好环境后会看到GPU相关的信息,如下图:
3.jpg
当我们遇到下列错误提示时,说明此实例的GPU显卡没有加载成功:
  1. <div>ubuntu@ip-172-31-17-216:~$ nvidia-smi </div>NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
复制代码
  错误提示表示为GPU的驱动没有加载。那么是什么原因造成的这种情况呢?Amazon Deep Learning AMI 是由AWS后台来进行维护,为了众多的环境兼容和稳定,当实例重启或者停止之后会更新系统的内核版本。而中国区此AMI自带的GPU驱动版本比较老,所以在内核更新之后会无法识别老的GPU驱动,造成GPU显卡无法加载。
那么解决此问题只需要手动的更新GPU驱动即可。下面介绍更新驱动的步骤。
我们可以写一个更新GPU版本驱动的脚本:
  1. #!/bin/bash

  2. set -x

  3. version=$1
  4. #version=410.79
  5. #version=410.104

  6. wget http://us.download.nvidia.com/tesla/${version}/NVIDIA-Linux-x86_64-${version}.run
  7. sudo sh ./NVIDIA-Linux-x86_64-${version}.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd
复制代码
此脚本中我们会从NVIDIA官网下载不同版本的驱动并进行安装。在执行时后面带上需要的GPU版本为脚本传参。
  1. $ sudo ./install.sh 410.104
复制代码
之后查看更新后的显卡模块版本:
  1. $ modinfo nvidia | head -7
  2. filename: /lib/modules/4.4.0-1077-aws/updates/dkms/nvidia.ko
  3. alias: char-major-195-*
  4. version: 410.104
  5. supported: external
  6. license: NVIDIA
  7. srcversion: 3B812B02678A6B43A294F17
  8. alias: pci:v000010DEd00000E00sv*sd*bc04sc80i00*
复制代码
加载显卡模块:
  1. $ sudo modprobe nvidia
复制代码
启动GPU,查看是否已经正常工作:
  1. $ nvidia-smi
复制代码
至此,我们的实例应该已经可以正常使用GPU显卡了,但是前提是保证在内核不更新的情况下,可以正常加载GPU。如果在内核更新而且GPU的驱动再次过老之后依然会出现这个现象。所以,如果想一劳永逸的避免这种情况,只能手动关闭系统内核的更新机制来解决。不过,由于此AMI的初衷是提供给客户方便灵活的进行一次性机器任务的,所以不推荐客户长时间利用此AMI进行生产的部署,如果需要请自行搭建机器学习平台或者模型运行的环境。
此外,在AWS global 区域已经推出最新的Deep Learning (Ubantu) 23.0版本(如下图),不会出现类似问题。
4.png


转播转播
回复

使用道具

联系楼主
*
*
客户公司所在区域:
*
产品:
*
简述客户的业务场景和需求
*
*
*

成为第一个回答人

B Color Link Quote Code Smilies
光环云社区 |京ICP备18044167号-13|

京公网安备 11010102003758号