姜标 發表於 2023-8-20 00:00:00

Info:Memory module [DIMM] needs attention: Single-bit warning error rate exceeded, Single-bit failure error rate exceeded

<p>dell服务器硬件监控软件openmanager,可以对电池,主板,温度,以及硬盘等等进行监测。安装使用可以参见《Dell服务器安装OpenManage(OMSA)》</p>
<p>在监测中,可能会遇到下面的错误信息:</p>
<p>Info:Memory module 6 needs attention: Single-bit warning error rate exceeded, Single-bit failure error rate exceeded</p>
<p>这说明内存监测有问题了,可能内存松动等等,但是系统还是可以认到该条内存的。需要关机重新拔插下该条内存的。由于需要停服关机,会影响业务的。但是该问题会一直报警的。收到报警信息大家都会觉得烦躁的。可以对内存的监控屏蔽掉,方法如下:</p><pre class="brush:bash;toolbar:false">check_openmanage --check storage -b dimm=all</pre><p><img src="https://zhuji.jb51.net/uploads/img/20230517/83184996372b80deba63a8dd571d5645.jpg" width="869" height="644"></p>
<p>可以看到内存和Voltage没有检测。</p>
<p>不加dimm=all就会检测内存的。</p>
<p><img src="https://zhuji.jb51.net/uploads/img/20230517/a6275a998490962ee3424a1ad1b6376a.jpg" width="659" height="402"></p>
<p>可以对相关硬件检测进行屏蔽掉。如温度检测等等。如:</p><pre class="brush:bash;toolbar:false">/usr/local/nagios/libexec/check_openmanage --check storage -b ctrl_fw=all/ctrl_driver=all/ctrl_stdr=all/bat_charge=all/encl=all/ps=all/fan=all/temp=all/volt=all</pre>
頁: [1]
查看完整版本: Info:Memory module [DIMM] needs attention: Single-bit warning error rate exceeded, Single-bit failure error rate exceeded