From b36c4321139981a30398979d91830fe278138364 Mon Sep 17 00:00:00 2001 From: mirror Date: Sat, 12 Oct 2024 13:46:08 +0800 Subject: [PATCH] Update MACA --- MACA.md | 27 ++++++++++++++------------- 1 file changed, 14 insertions(+), 13 deletions(-) diff --git a/MACA.md b/MACA.md index fd2872f..22ea4a8 100644 --- a/MACA.md +++ b/MACA.md @@ -105,20 +105,21 @@ | x86_64 | KeyarchOS 5.8 | 4.19.91-27.4.19.kos5.x86_64 | 支持 | -### 环境检查(如无特别说明,以Ubuntu 18.04为例) +### 环境检查(以 Ubuntu 18.04 为例) + +| 序号 | 检查项目 | 检查命令 | 说明 | +|------|-----------------------|----------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------| +| 1 | 服务器 CPU 架构 | `uname -m` | 对照表 3.1 硬件和软件平台兼容列表,确认 CPU 架构、操作系统和内核版本是否在列表中。若有任何一项不匹配,则需更新环境。详细信息参见 3.2.1 确认服务器架构、操作系统和内核版本。| +| 2 | 操作系统 | `lsb_release -a` | | +| 3 | 内核版本 | `uname -r` | | +| 4 | 系统是否安装过驱动 | `lsmod \| grep metax` | - 若无内容显示,则表示未安装过软件包,可以直接安装软件包。
- 若有内容显示,则表示安装过软件包,需先卸载驱动包,再安装新版本软件包。卸载驱动包,请参见 3.2.5。 | +| 5 | 板卡是否正常在位 | `lspci \| grep 9999` | 如果服务器上有 N(N>0)张曦云 GPU 板卡,回显中含有 “9999” 字段的行数为 N 时,则表示曦云 GPU 板卡正常在位。若有 2 张板卡且都正常在位,则回显如下:
01:00.0 Display controller: Device 9999:4000 (rev 01)
02:00.0 Display controller: Device 9999:4000 (rev 01) | +| 6 | udev 配置 | `cat /etc/udev/rules.d/70-metax.rules` | - 若有群组管理需要:
只允许 video 组的成员使用曦云 GPU,配置文件如下:
KERNEL=="mxcd", GROUP="video", MODE="0660"
KERNEL=="renderD[0-9]*", GROUP="video", MODE="0660"
- 若没有以上内容,则表示只有 root 用户可以使用曦云 GPU。
- 若无群组管理需求,可删除此配置文件。(deb 包安装会自动创建此配置文件。) | +| 7 | 虚拟化 | `dmesg \| grep "no space"` | 支持 SR-IOV 功能的曦云系列 GPU 板卡需要分配额外的 PCI BAR 空间给 VF,VF 所需 BAR 空间大小是 PF 的 8 倍,若系统无法分配地址空间,则设备无法正常工作。 | +| 8 | IOMMU 配置 | `vim /etc/default/grub` | - 在 `GRUB_CMDLINE_LINUX=""` 里面添加 `iommu.passthrough=1`
- 执行 `sudo update-grub`
- 重启系统,查看 `/proc/cmdline`,确保改动生效。 | +| 9 | gpu_sched 模块 | `modinfo gpu_sched` | - 如果加载 metax 驱动时出现 `Unknown symbol drm_sched_xxx`,说明缺少依赖的 gpu_sched 模块。
- 安装可选内核软件包,支持 deb 的系统执行 `apt install linux-modules-extra-$(uname -r)`;支持 rpm 的系统执行 `yum install kernel-modules-extra`。
- 重启系统。 | +| 10 | 是否允许第三方驱动加载(仅适用于 SLES-15 系统) | `modprobe metax` | 对于 SLES-15 系统,如加载 metax 驱动时提示 `module metax is unsupported`,则使用 `modprobe metax --allow-unsupported` 命令加载。若需开机自动加载 metax 驱动,需创建 `/etc/modprobe.d/10-unsupported-modules.conf` 文件,并在其中填写 `allow_unsupported_modules 1`。 | -| 序号 | 检查项目 | 检查命令 | 说明 | -|------|---------------------|-------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------| -| 1 | 服务器CPU架构 | `uname -m` | 对照表3 1软硬件平台兼容列表,确认CPU架构,操作系统和内核版本是否在列表中。若有任何一项不匹配,则需更新环境。详细信息参见3.2.1确认服务器架构,操作系统和内核版本。 | -| 2 | 操作系统 | `lsb_release -a` | | -| 3 | 内核版本 | `uname -r` | | -| 4 | 系统是否安装过驱动 | `lsmod | grep metax` | - 若无内容显示,则表示未安装过软件包。可以直接安装软件包。
- 若有内容显示,则表示安装过软件包。需要先卸载驱动包,再安装新版本软件包。卸载驱动包,请参见3.2.5卸载驱动。 | -| 5 | 板卡是否正常在位 | `lspci | grep 9999` | 如果服务器上有N(N>0)张曦云GPU板卡,回显中含“9999”字段的行数为N时,则表示曦云GPU板卡正常在位。例如,若服务器上有2张板卡且都正常在位,则回显信息如下所示:
01:00.0 Display controller: Device 9999:4000 (rev 01)
02:00.0 Display controller: Device 9999:4000 (rev 01) | -| 6 | udev配置 | `cat /etc/udev/rules.d/70-metax.rules` | - 若有群组管理需要:
只允许video组的成员使用曦云GPU,则配置文件有如下内容:
KERNEL=="mxcd", GROUP="video", MODE="0660"
KERNEL=="renderD[0-9]*", GROUP="video", MODE="0660"
- 若没有以上内容,则表示只有root用户可以使用曦云GPU。
- 若无群组管理需要,可删除此配置文件。(deb包安装会自动创建此配置文件。) | -| 7 | 虚拟化 | `dmesg | grep "no space"` | 支持SRIOV功能的曦云系列GPU板卡需要分配额外的PCI BAR空间给VF,VF所需BAR空间的大小是PF的8倍,如果系统无法分配地址空间,对应的设备将无法正常工作。 | -| 8 | IOMMU配置 | `vim /etc/default/grub` | - 在`GRUB_CMDLINE_LINUX=""`里面添加`iommu.passthrough=1`
- 执行`sudo update-grub`
- 重启系统,查看`/proc/cmdline`,确保改动生效 | -| 9 | gpu_sched模块 | `modinfo gpu_sched` | - 如果加载metax驱动过程中出现`Unknown symbol drm_sched_xxx`字样,说明缺少依赖的gpu_sched模块
- 安装内核可选软件包,支持deb的系统执行`apt install linux-modules-extra-$(uname -r)`;支持rpm的系统执行`yum install kernel-modules-extra`
- 重启系统 | -| 10 | 是否允许第三方驱动加载(仅适用于SLES-15系统) | `modprobe metax` | 对于SLES-15系统,如在加载metax驱动时提示`module metax is unsupported`,则需使用`modprobe metax --allow-unsupported`命令加载。如需开机自动加载metax驱动,则需添加`/etc/modprobe.d/10-unsupported-modules.conf`文件,并在该文件中填写`allow_unsupported_modules 1`。 | ### 适配 Centos7 系统