Update MACA
parent
add13f332e
commit
3b940d200a
17
MACA.md
17
MACA.md
@ -109,16 +109,17 @@
|
|||||||
|
|
||||||
| 序号 | 检查项目 | 检查命令 | 说明 |
|
| 序号 | 检查项目 | 检查命令 | 说明 |
|
||||||
|------|-----------------------|----------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------|
|
|------|-----------------------|----------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------|
|
||||||
| 1 | 服务器 CPU 架构 | `uname -m` | 对照表 3.1 硬件和软件平台兼容列表,确认 CPU 架构、操作系统和内核版本是否在列表中 若有任何一项不匹配,则需更新环境 详细信息参见 3.2.1 确认服务器架构、操作系统和内核版本 |
|
| 1 | 服务器 CPU 架构 | `uname -m` |平台兼容列表,确认 CPU 架构、操作系统和内核版本是否在列表中 若有任何一项不匹配,则需更新环境
|
||||||
| 2 | 操作系统 | `lsb_release -a` | |
|
| 2 | 操作系统 | `lsb_release -a` | |
|
||||||
| 3 | 内核版本 | `uname -r` | |
|
| 3 | 内核版本 | `uname -r` | |
|
||||||
| 4 | 系统是否安装过驱动 | `lsmod \| grep metax` | - 若无内容显示,则表示未安装过软件包,可以直接安装软件包<br>- 若有内容显示,则表示安装过软件包,需先卸载驱动包,再安装新版本软件包 卸载驱动包,请参见 3.2.5 |
|
| 4 | 系统是否安装过驱动 | `lsmod \| grep metax` | 若无内容显示,则表示未安装过软件包 可以直接安装软件包 若有内容显示,则表示安装过软件包 需先卸载驱动包 再安装新版本软件包 卸载驱动包 请参见 3.2.5 |
|
||||||
| 5 | 板卡是否正常在位 | `lspci \| grep 9999` | 如果服务器上有 N(N>0)张曦云 GPU 板卡,回显中含有 “9999” 字段的行数为 N 时,则表示曦云 GPU 板卡正常在位 若有 2 张板卡且都正常在位,则回显如下:<br>01:00.0 Display controller: Device 9999:4000 (rev 01)<br>02:00.0 Display controller: Device 9999:4000 (rev 01) |
|
| 5 | 板卡是否正常在位 | `lspci \| grep 9999` | 如果服务器上有 N(N>0)张曦云 GPU 板卡 回显中含有 “9999” 字段的行数为 N 时 则表示曦云 GPU 板卡正常在位 若有 2 张板卡且都正常在位 则回显如下:<br>01:00.0 Display controller: Device 9999:4000 (rev 01)<br>02:00.0 Display controller: Device 9999:4000 (rev 01) |
|
||||||
| 6 | udev 配置 | `cat /etc/udev/rules.d/70-metax.rules` | - 若有群组管理需要:<br>只允许 video 组的成员使用曦云 GPU,配置文件如下:<br>KERNEL=="mxcd", GROUP="video", MODE="0660"<br>KERNEL=="renderD[0-9]*", GROUP="video", MODE="0660"<br>- 若没有以上内容,则表示只有 root 用户可以使用曦云 GPU<br>- 若无群组管理需求,可删除此配置文件(deb 包安装会自动创建此配置文件) |
|
| 6 | udev 配置 | `cat /etc/udev/rules.d/70-metax.rules` | 若有群组管理需要 只允许 video 组的成员使用曦云 GPU 配置文件如下:<br>KERNEL=="mxcd", GROUP="video", MODE="0660"<br>KERNEL=="renderD[0-9]*", GROUP="video", MODE="0660"<br>若没有以上内容 则表示只有 root 用户可以使用曦云 GPU 若无群组管理需求 可删除此配置文件(deb 包安装会自动创建此配置文件) |
|
||||||
| 7 | 虚拟化 | `dmesg \| grep "no space"` | 支持 SR-IOV 功能的曦云系列 GPU 板卡需要分配额外的 PCI BAR 空间给 VF,VF 所需 BAR 空间大小是 PF 的 8 倍 若系统无法分配地址空间,则设备无法正常工作 |
|
| 7 | 虚拟化 | `dmesg \| grep "no space"` | 支持 SR-IOV 功能的曦云系列 GPU 板卡需要分配额外的 PCI BAR 空间给 VF VF 所需 BAR 空间大小是 PF 的 8 倍 若系统无法分配地址空间 则设备无法正常工作 |
|
||||||
| 8 | IOMMU 配置 | `vim /etc/default/grub` | 在 `GRUB_CMDLINE_LINUX=""` 里面添加 `iommu.passthrough=1`<br>- 执行 `sudo update-grub`<br>- 重启系统,查看 `/proc/cmdline`,确保改动生效 |
|
| 8 | IOMMU 配置 | `vim /etc/default/grub` | 在 `GRUB_CMDLINE_LINUX=""` 里面添加 `iommu.passthrough=1`<br>执行 `sudo update-grub`<br>重启系统 查看 `/proc/cmdline` 确保改动生效 |
|
||||||
| 9 | gpu_sched 模块 | `modinfo gpu_sched` | 如果加载 metax 驱动时出现 `Unknown symbol drm_sched_xxx`,说明缺少依赖的 gpu_sched 模块<br>- 安装可选内核软件包,支持 deb 的系统执行 `apt install linux-modules-extra-$(uname -r)`;支持 rpm 的系统执行 `yum install kernel-modules-extra`<br>- 重启系统 |
|
| 9 | gpu_sched 模块 | `modinfo gpu_sched` | 如果加载 metax 驱动时出现 `Unknown symbol drm_sched_xxx` 说明缺少依赖的 gpu_sched 模块 安装可选内核软件包 支持 deb 的系统执行 `apt install linux-modules-extra-$(uname -r)` 支持 rpm 的系统执行 `yum install kernel-modules-extra` 重启系统 |
|
||||||
| 10 | 是否允许第三方驱动加载(仅适用于 SLES-15 系统) | `modprobe metax` | 对于 SLES-15 系统,如加载 metax 驱动时提示 `module metax is unsupported`,则使用 `modprobe metax --allow-unsupported` 命令加载 若需开机自动加载 metax 驱动,需创建 `/etc/modprobe.d/10-unsupported-modules.conf` 文件,并在其中填写 `allow_unsupported_modules 1` |
|
| 10 | 是否允许第三方驱动加载(仅适用于 SLES-15 系统) | `modprobe metax` | 对于 SLES-15 系统 如加载 metax 驱动时提示 `module metax is unsupported` 则使用 `modprobe metax --allow-unsupported` 命令加载 若需开机自动加载 metax 驱动 需创建 `/etc/modprobe.d/10-unsupported-modules.conf` 文件 并在其中填写 `allow_unsupported_modules 1` |
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user