配置 GPU 节点
添加图形处理单元到长期运行的 DC/OS 服务
借助基于 GPU 的计划,您可以共享传统和机器学习工作负载的群集资源,还可以在这些群集内动态分配 GPU 资源并在需要时释放它们。您可以为有需要的工作负载预留 GPU 资源,或将这些启用了 GPU 的资源与基础架构的其余部分进行混合,以提高总体利用率。
在安装了启用 GPU 的 DC/OS 之后,您可以通过 参数在应用定义中指定 GPU。
安装启用了 GPU 的 DC/OS
必须在 DC/OS 安装期间启用 GPU。按照以下说明,根据您的特定 DC/OS 部署方法启用 GPU。
在每个具有 GPU 的群集节点上安装 NVIDIA 管理库 (NVML) 所需的 NVIDIA 驱动程序最低版本为 340.29。有关详细的安装说明,请参阅 。
- AWS DC/OS 高级模板 系统要求.
- 复制到本地机器的
zen.sh
脚本。脚本和说明在 .
- 运行
zen.sh
脚本以创建 Zen 模板依赖关系。这些依赖关系将用作在 CloudFormation 中创建堆栈的输入信息。
重要信息:在执行后续步骤之前,您必须运行 zen.sh
脚本。
请根据 此处 说明,使用以下 GPU 专用配置创建具有高级 AWS 模板的群集。
在 创建堆栈 > 指定详情页面指定您的堆栈信息并单击 下一步。以下是 GPU 特定设置。
MasterInstanceType——接受默认管理节点实例类型(例如,
m3.xlarge
).PrivateAgentInstanceType——指定 (例如, ).
PublicAgentInstanceType——指定 AWS GPU 机器类型 (例如,
g2.2xlarge
).
在 选项 页面,接受默认值,然后单击 下一步。您可以选择是否在发生故障时回滚。默认情况下,此选项设置为 是。