ThinkSystem服务器板载Matrox MGA200图形芯片会不定时出错,并导致系统宕机。
此问题影响目前全系列ThinkSystem服务器。
受此问题影响的操作系统包括:
Windows Server 2012 R2及2016;
Red Hat Enterprise Linux 6.x;
Red Hat Enterprise Linux 7.x;
SUSE Enterprise Linux 11.x;
SUSE Enterprise Linux 12.x;
CentOS及Oracle Enterprise Linux。
原因分析:
当非零值写入Matrox G200e的高优先级寄存器时,会产生一个亚稳态状况,导致与PCI-E接口有关视频数据队列被阻止,然后造成PCI-E总线超时错误,并最终造成一个IERR和系统宕机。
解决方案:
对于受支持的操作系统:
Windows Server 2012 R2,
Windows Server 2016,
Red Hat Enterprise Linux 6.9,
Red Hat Enterprise Linux 7.3,
SUSE Enterprise Linux 11 SP4,
SUSE Enterprise Linux 12 SP2,
更新板载显卡驱动即可,txt readme文档中有操作说明。
如果要全新安装SUSE Enterprise Linux 11 SP4及SUSE Enterprise Linux 12 SP2操作系统,可以使用ThinkSystem Bootable Driver Kit(即kISO镜像),其中包含最新版本的驱动。SUSE官网下载连接:
https://drivers.suse.com/index.php?vendor=Lenovo&SLE=none&name=ThinkSystem
对于CentOS 7.3和RHEL 7.3,还可以参考Red Hat官网的指导:
https://access.redhat.com/errata/RHEA-2017:1730
对于Oracle Linux,需要在内核参数中加入一条对Matrox显卡驱动的blacklist:
modprobe.blacklist=mgag200
备注:
本文翻译自联想(国际)官网文档,并进行一定重新编译。来源:https://support.lenovo.com/us/zh/solutions/ht505175