Linux检查硬件错误工具mcelog命令

Linux检查硬件错误工具mcelog命令

mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。未纠正的错误是关键异常,如果 CPU 无法恢复,往往会导致系统上的内核错误。这会导致应用程序重置和中断。对于未纠正的错误,mcelog 捕获错误的能力取决于错误导致热重启还是硬重启...

mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。

未纠正的错误是关键异常,如果 CPU 无法恢复,往往会导致系统上的内核错误。

这会导致应用程序重置和中断。

对于未纠正的错误,mcelog 捕获错误的能力取决于错误导致热重启还是硬重启。

如果是热重启,信息会被 mcelog 捕获,恢复后可看到。

硬重启会导致数据丢失,而且 mcelog 可能捕获不到该事件。

安装:

[root@RedHat_test ~]# yum install mcelog.x86_64

mcelog的启动方式

 cron : 最老的方式,有确定,定时任务,会丢失一些
 daemon : el7上用这种,守护进程的方式
 trigger : 高级一点的方式,触发的时候,看man mcelog

mcelog相关文件

/dev/mcelog 设备文件
 /var/log/mcelog messages日志文件
 /etc/mcelog/mcelog.conf配置文件
 /var/run/mcelog.pid
 默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。
 如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

mcelog后台运行

[root@RedHat_test ~]# mcelog --daemon

查看系统是否异常

1、手动运行mcelog的方式
[root@RedHat_test ~]# mcelog --daemon
2、查看mcelog日志
 [root@RedHat_test ~]# tail /var/log/mcelog
 # 什么也没有输出,表明正常
3、查看mcelog守护进程是否检测到错误信息
 [root@RedHat_test ~]# mcelog --client
 # 什么也没有输出,表明正常
4、解析系统异常时的mcelog输出
 [root@RedHat_test ~]# mcelog --ascii < file.log
 # or或者
 [root@RedHat_test ~]# mcelog --ascii --file file.log

测试

1、mce-inject用于测试mcelog能否正确的获取硬件错误信息,并进行正确解码,mce-inject可以向内核注入指定的错误信息,因此,可以很方便的了解到mcelog的功能是否正常。

注意的是,当用户利用mce-inject工具向内核注入不可恢复错误(如:fatal)时,会发生死机重新启动等现象,当然,可以通过更改sys文件系统下的tolerate文件来避免此现象的发生。

 [root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0
 ----------------------------------------------------------------------------------------
 位置 : /sys/devices/system/machinecheck/machinecheck*/
 说明 : 其中machinecheck* 中的 *号由CPU的个数所决定的,如果是双核的,则存在machinecheck0和machinecheck1两个目录,对应目录里都有一个tolerate文件,tolerate中存放容忍程度值。
 功能 : 向用户提供一个可选择的出现相应硬件错误时的容忍程度(tolerate),比如:当tolerate的值为1时,出现fatal错误时就会死机,重新启动,并且该错误信息并不被记录;当tolerate的值为3时(注意该值只用于测试),在出现fatal错误时,机器会容忍该错误不予响应,不会出现死机重新启动现象,并且会记录相关错误信息。
 ----------------------------------------------------------------------------------------
 [root@RedHat_test machinecheck0]# cat tolerant 
 1
 [root@RedHat_test machinecheck0]# echo 3 > tolerant
 ----------------------------------------------------------------------------------------
 数值含义
 tolerate的取值可以为0、1、2、3。
 0: always panic on uncorrected errors, log corrected errors
 1: panic or SIGBUS on uncorrected errors, log corrected errors
 2: SIGBUS or log uncorrected errors (if possible), log corrected errors
 3: never panic or SIGBUS, log all errors (for testing only)
2、安装
[root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils
3、捏造文件
[root@RedHat_test ~]# cat correct 
 CPU 1BANK 2
 STATUS corrected
 RIP 0x12341234
4、加载mce-inject模块
[root@RedHat_test ~]# modprobe mce-inject
5、在终端执行文件
[root@RedHat_test ~]# mce-inject ./correct
6、查看/var/log/mcelog,/var/log/messages
 [root@RedHat_test ~]# tail /var/log/mcelog
 TIME 1581565856Thu Feb 1311:50:56 2020
 MCG status:
 MCi status:
 Corrected error
 Error enabled
 MCA: No Error
 STATUS 9000000000000000MCGSTATUS 0
 MCGCAP 100010a APICID 1SOCKETID 0
 MICROCODE 1
 CPUID Vendor Intel Family 6Model 63
 [root@RedHat_test ~]# cat /var/log/messages
 Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
 Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged

同样的方式,在el7上设置

tail /var/log/messages 可以看到日志,但是,/var/log/mcelog文件默认在el7上,却不存在!!原因是,默认打到/var/log/messages ,不打到/var/log/mcelog。如果希望打到/var/log/mcelog,需要在mcelog 的service文件中,加入参数–logfile=/var/log/mcelog,然后重启mcelog

ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog
版权申明:
版权声明

①:本站文章均为原创,除非另有说明,否则本站内容依据CC BY-NC-SA 4.0许可证进行授权,转载请附上出处链接,谢谢。
②:本站提供的所有资源均为网上搜集,不保证能100%完整,如有涉及或侵害到您的版权请立即通知我们。
③:本站所有下载文件,仅用作学习研究使用,请下载后24小时内删除,支持正版,勿用作商业用途。
④:本站保证所提供资源的完整性,但不含授权许可、帮助文档、XML文件、PSD、后续升级等。
⑤:使用该资源需要用户有一定代码基础知识!由本站提供的资源对您的网站或计算机造成严重后果的本站概不负责。
⑥:本站资源售价只是赞助,收取费用仅维持本站的日常运营所需。
⑦:如果喜欢本站资源,欢迎捐助本站开通会员享受优惠折扣,谢谢支持!
⑧:如果网盘地址失效,请在相应资源页面下留言,我们会尽快修复下载地址。

0

评论0

请先

会员低至49元,开通享海量VIP资源免费下载 自助开通
显示验证码
没有账号?注册  忘记密码?