Bug 3789 - [anolis7.9][arm64] [rhck] vhd镜像 ecs.g6r.large,ecs.g6r.16xlarge实例手动触发crash后卡死,无法ping通
Summary: [anolis7.9][arm64] [rhck] vhd镜像 ecs.g6r.large,ecs.g6r.16xlarge实例手动触发crash后卡死...
Status: REOPENED
Alias: None
Product: Anolis OS 7
Classification: Anolis OS
Component: Images&Installations (show other bugs) Images&Installations
Version: 7.9
Hardware: All Linux
: P1-Urgent S1-blocker
Target Milestone: ---
Assignee: xiangzao
QA Contact:
URL:
Whiteboard:
Keywords:
Depends on:
Blocks:
 
Reported: 2023-01-17 16:49 UTC by liuyaqing
Modified: 2023-02-17 10:38 UTC (History)
5 users (show)

See Also:


Attachments
anolis7.9 arm64 信息截图 (8.05 MB, image/bmp)
2023-01-17 16:49 UTC, liuyaqing
Details
Ecs system log after triggering crash (12.78 KB, text/plain)
2023-01-29 15:43 UTC, chuyang_94
Details

Note You need to log in before you can comment on or make changes to this bug.
Description liuyaqing alibaba_cloud_group 2023-01-17 16:49:23 UTC
Created attachment 608 [details]
anolis7.9 arm64 信息截图

Description of problem:
月度镜像 anolisos_7_9_arm64_20G_rhck_alibase_20230105.vhd 的实例ecs.g6r.large,ecs.g6r.16xlarge在执行手动触发crash后卡死,无法ping通,内存,cmdline,image-id,内核信息等见附件

Version-Release number of selected component (if applicable):
4.18.0-192.28.1.an7.aarch64

How reproducible:
必现

Steps to Reproduce:
1.使用anolisos_7_9_arm64_20G_rhck_alibase_20230105.vhd创建ecs.g6r.large,ecs.g6r.16xlarge实例

2.远程执行触发crash的用例,用例内容包含echo c >/proc/sysrq-trigger
3.实例卡死,无法ping通

Actual results:
实例卡死,无法ping通

Expected results:
实例触发crash后正常启动,并到达登录界面,在/var/crash目录下能看到生成的vmcore等文件

Additional info:
Comment 1 chuyang_94 alibaba_cloud_group 2023-01-29 15:43:19 UTC
Created attachment 614 [details]
Ecs system log after triggering crash
Comment 2 xiangzao alibaba_cloud_group 2023-02-03 11:08:55 UTC
本问题是概率复现问题
月度镜像内核版本为4.18.0-192.28.1.an7.aarch64
在g6r.large上使用centos7.9镜像,内核版本为4.18.0-348.20.1.el7.aarch64,同样存在该问题
问题的现象是在kdump kernel内systemd-udev hung task并且执行reboot -f后systemd-shtdown 也hung task,导致无法重启,卡在kdump kernel
解决方法是将/etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2
Comment 3 xiangzao alibaba_cloud_group 2023-02-03 11:13:57 UTC
(In reply to xiangzao from comment #2)
> 本问题是概率复现问题
> 月度镜像内核版本为4.18.0-192.28.1.an7.aarch64
> 在g6r.large上使用centos7.9镜像,内核版本为4.18.0-348.20.1.el7.aarch64,同样存在该问题
> 问题的现象是在kdump kernel内systemd-udev hung task并且执行reboot -f后systemd-shtdown
> 也hung task,导致无法重启,卡在kdump kernel
> 解决方法是将/etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2

/etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2后,需要执行
kdumpctl rebuild
kdumpctl restart
Comment 4 chuyang_94 alibaba_cloud_group 2023-02-03 17:20:02 UTC
(In reply to xiangzao from comment #3)
> (In reply to xiangzao from comment #2)
> > 本问题是概率复现问题
> > 月度镜像内核版本为4.18.0-192.28.1.an7.aarch64
> > 在g6r.large上使用centos7.9镜像,内核版本为4.18.0-348.20.1.el7.aarch64,同样存在该问题
> > 问题的现象是在kdump kernel内systemd-udev hung task并且执行reboot -f后systemd-shtdown
> > 也hung task,导致无法重启,卡在kdump kernel
> > 解决方法是将/etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2
> 
> /etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2后,需要执行
> kdumpctl rebuild
> kdumpctl restart


那这个是不是直接在内核上改好  而不是用户遇到了再去改?
Comment 6 gaochang alibaba_cloud_group 2023-02-16 19:50:19 UTC
和内核同学 @xiangzao 沟通了一下,解决方案中的修改 nr_cpus 的方式存在风险,nr_cpus 1为默认值,2 为特殊场景下的解决方案,2能否作为默认的处理方式我认为还需要更多的测试和分析。目前我的看法是不进行修改,而使用文档说明的方式,提示用户在遇到类似场景时的处理方法。
Comment 7 chuyang_94 alibaba_cloud_group 2023-02-16 20:00:17 UTC
(In reply to gaochang from comment #6)
> 和内核同学 @xiangzao 沟通了一下,解决方案中的修改 nr_cpus 的方式存在风险,nr_cpus 1为默认值,2
> 为特殊场景下的解决方案,2能否作为默认的处理方式我认为还需要更多的测试和分析。
> 目前我的看法是不进行修改,而使用文档说明的方式,提示用户在遇到类似场景时的处理方法。

我觉得文档说明在问题彻底解决之前是必要的 但是一方面这个nr_cpus 2其实没有测试分析支持的话 也不能作为解决方案,如果没有提前配置  机器会hang住  影响范围不可控; 另一方面用户即使能手动改成2  还是存在风险的; 测试这边觉得还是要解决  可以配合进行测试
Comment 8 chuyang_94 alibaba_cloud_group 2023-02-17 10:38:06 UTC
(In reply to xiangzao from comment #2)
> 本问题是概率复现问题
> 月度镜像内核版本为4.18.0-192.28.1.an7.aarch64
> 在g6r.large上使用centos7.9镜像,内核版本为4.18.0-348.20.1.el7.aarch64,同样存在该问题
> 问题的现象是在kdump kernel内systemd-udev hung task并且执行reboot -f后systemd-shtdown
> 也hung task,导致无法重启,卡在kdump kernel
> 解决方法是将/etc/sysconfig/kdump 内的nr_cpus=1 改为nr_cpus=2

这个概率复现是怎么得出的  我们这边原场景复现 一直都是存在问题的