123 |
||
|---|---|---|
| group_vars | ||
| inventory/prod | ||
| playbooks | ||
| roles/gpu_drive | ||
| scripts | ||
| README.md | ||
README.md
Ansible实现GPU服务器组件的标准化部署
一、剧本概述
该剧本通过独立脚本+Ansible批量执行实现服务器组件的标准化部署,支持以下核心功能:
- 组件范围:系统初始化、显卡驱动、网卡驱动、Node Exporter、DCGM Exporter(可扩展)
- 操作类型:
--install(安装)、--uninstall(卸载) - 版本管理:默认版本(变量文件定义)、手动指定版本(执行时传递)
- 维护特性:仅需修改脚本即可调整安装逻辑,无需改动Ansible剧本,实现解耦维护。
二、目录结构说明
prod-ansible/
├── inventory/ # 主机清单
│ └── prod.ini # 主机分组清单
│
├── group_vars/ # 全局公共变量
│ └── all.yaml # SSH配置、脚本路径、日志目录
│
├── roles/ # 组件角色(独立变量/任务/脚本)
│ ├── gpu_driver/ # 显卡驱动角色
│ │ ├── vars/ # 角色专用变量
│ │ │ └── main.yaml # 驱动版本、下载URL等
│ │ ├── tasks/ # 角色任务(安装/卸载逻辑)
│ │ │ └── main.yml # 调用脚本执行操作
│ │ └── files/ # 角色专属脚本
│ │ └── install.sh # 显卡驱动安装/卸载脚本
│ │
│ ├── node_exporter/ # Node Exporter角色
│ │ ├── vars/ # 专属变量
│ │ └── tasks/ # 专属任务
│ │
│ └── dcgm_exporter/ # DCGM Exporter角色
│
├── playbooks/ # 独立组件剧本
│ ├── deploy_gpu.yml # 仅部署GPU驱动
│ ├── deploy_node_exporter.yml# 仅部署Node Exporter
│ └── all_components_deploy.yml # 全量部署所有组件
│
├── scripts/ # 辅助脚本[ansible执行错误时使用]
│ └── ib-drive.sh # 网卡驱动安装脚本
│ └── nvidia-driver.sh # 显卡驱动安装脚本
│ └── nvidia-fabricmanager.sh # GPU互联管理器安装脚本
│ └── cuda.sh # CUDA工具包安装脚本
│ └── system_optimize.sh # 系统初始化安装脚本
│
├── ansible.cfg # Ansible全局配置
└── README.md
三、执行命令示例
场景1:批量安装Node Exporter(案例)
ansible-playbook -i inventory/production.ini site.yml --extra-vars "component=node-exporter-install operation=install"
场景2:单台服务器安装指定版本NVIDIA驱动
ansible-playbook -i inventory/staging.ini site.yml --limit server-01 --extra-vars "component=gpu-install operation=install version=535.104.05"
场景3:批量卸载DCGM Exporter
ansible-playbook -i inventory/production.ini site.yml --extra-vars "component=dcgm-exporter-install operation=uninstall"
场景4:手动执行脚本(Ansible失败时)
# 移步:scripts 目录手动执行相关脚本。
# http://10.101.0.51:3000/yindun/ansible-devops/src/branch/main/scripts
四、扩展与维护
1. 新增组件
- 编写独立脚本(如
node-exporter-install.sh),支持--install/--uninstall/--version参数; - 将脚本上传至指定的存储位置;
- 在group_vars/all.yaml中添加默认版本;
- 直接通过Ansible调用:
ansible-playbook -i inventory/prod.ini site.yml --extra-vars "component=node-exporter-install operation=install"