Update MACA

mirror 2024-10-12 14:15:41 +08:00
parent 0d293615bb
commit b57813d571

@ -113,12 +113,13 @@
| 2 | 操作系统 | `lsb_release -a` | |
| 3 | 内核版本 | `uname -r` | |
| 4 | 系统是否安装过驱动 | `lsmod | grep metax` | - 若无内容显示,则表示未安装过软件包。可以直接安装软件包。<br/>- 若有内容显示,则表示安装过软件包。需要先卸载驱动包,再安装新版本软件包。卸载驱动包,请参见 3.2.5 卸载驱动。 |
| 5 | 板卡是否正常在位 | `lspci | grep 9999` | 如果服务器上有 NN0张曦云 GPU 板卡,回显中含“9999”字段的行数为 N 时,则表示曦云 GPU 板卡正常在位。例如,若服务器上有 2 张板卡且都正常在位,则回显信息如下所示:<br/>01:00.0 Display controller: Device 9999:4000 (rev 01)<br/>02:00.0 Display controller: Device 9999:4000 (rev 01) |
| 5 | 板卡是否正常在位 | `lspci | grep 9999` | 如果服务器上有 NN0张曦云 GPU 板卡,回显中含 "9999" 字段的行数为 N 时,则表示曦云 GPU 板卡正常在位。例如,若服务器上有 2 张板卡且都正常在位,则回显信息如下所示:<br/>01:00.0 Display controller: Device 9999:4000 (rev 01)<br/>02:00.0 Display controller: Device 9999:4000 (rev 01) |
| 6 | udev 配置 | `cat /etc/udev/rules.d/70-metax.rules` | - 若有群组管理需要:<br/>只允许 video 组的成员使用曦云 GPU则配置文件有如下内容<br/>KERNEL=="mxcd", GROUP="video", MODE="0660"<br/>KERNEL=="renderD[0-9]*", GROUP="video", MODE="0660"<br/>- 若没有以上内容,则表示只有 root 用户可以使用曦云 GPU。<br/>- 若无群组管理需要可删除此配置文件。deb 包安装会自动创建此配置文件。) |
| 7 | 虚拟化 | `dmesg | grep "no space"` | 支持 SRIOV 功能的曦云系列 GPU 板卡需要分配额外的 PCI BAR 空间给 VFVF 所需 BAR 空间的大小是 PF 的 8 倍,如果系统无法分配地址空间,对应的设备将无法正常工作。 |
| 8 | IOMMU 配置 | `vim /etc/default/grub` | - 在 `GRUB_CMDLINE_LINUX=""` 里面添加 `iommu.passthrough=1`<br/>- 执行 `sudo update-grub`<br/>- 重启系统,查看 `/proc/cmdline`,确保改动生效 |
| 9 | gpu_sched 模块 | `modinfo gpu_sched` | - 如果加载 metax 驱动过程中出现 `Unknown symbol drm_sched_xxx` 字样,说明缺少依赖的 gpu_sched 模块<br/>- 安装内核可选软件包,支持 deb 的系统执行 `apt install linux-modules-extra-$(uname -r)`;支持 rpm 的系统执行 `yum install kernel-modules-extra`<br/>- 重启系统 |
| 10 | 是否允许第三方驱动加载(仅适用于 SLES-15 系统) | `modprobe metax` | 对于 SLES-15 系统,如在加载 metax 驱动时提示 `module metax is unsupported`,则需使用 `modprobe metax --allow-unsupported` 命令加载。如需开机自动加载 metax 驱动,则需添加 `/etc/modprobe.d/10-unsupported-modules.conf` 文件,并在该文件中填写 `allow_unsupported_modules
| 10 | 是否允许第三方驱动加载(仅适用于 SLES-15 系统) | `modprobe metax` | 对于 SLES-15 系统,如在加载 metax 驱动时提示 `module metax is unsupported`,则需使用 `modprobe metax --allow-unsupported` 命令加载。如需开机自动加载 metax 驱动,则需添加 `/etc/modprobe.d/10-unsupported-modules.conf` 文件,并在该文件中填写 `allow_unsupported_modules 1`。 |