Bug 3404 - 在倚天710 Arm平台 龙析8.6 (kernel版本在4.18之后)业内FIO压测工具做硬盘HDD 的按顺序128K混合读写出现性能稳定性抖动
Summary: 在倚天710 Arm平台 龙析8.6 (kernel版本在4.18之后)业内FIO压测工具做硬盘HDD 的按顺序128K混合读写出现性能稳定性抖动
Status: NEW
Alias: None
Product: Anolis OS 8
Classification: Anolis OS
Component: kernel - anck-5.10 (show other bugs) kernel - anck-5.10
Version: 8.6
Hardware: aarch64 Linux
: P3-Medium S2-major
Target Milestone: ---
Assignee: maqiao_mq
QA Contact: shuming
URL:
Whiteboard:
Keywords:
Depends on:
Blocks:
 
Reported: 2022-12-09 14:32 UTC by zmm13761366485
Modified: 2022-12-09 14:32 UTC (History)
0 users

See Also:


Attachments
附件是跑出来的数据散点图 (4.94 MB, application/vnd.openxmlformats-officedocument.spreadsheetml.sheet)
2022-12-09 14:32 UTC, zmm13761366485
Details

Note You need to log in before you can comment on or make changes to this bug.
Description zmm13761366485 2022-12-09 14:32:16 UTC
Created attachment 520 [details]
附件是跑出来的数据散点图

Description of problem:
HDD多盘顺序混合读写IO稳定性不达标(所有盘, 1024kb_1job_32qd)

Version-Release number of selected component (if applicable):
SW/FW:
BIOS Version: 1.2.M1.AL.E.135
BMC Version: 2.23.01
OS: Anolis OS 8.6
kernel: 5.10.134-12_rc2.an8.aarch64
FW: V100R002S02B050

HW:
MLB HW Version:
MLB S/N:
MLB CPLD Version: CPLD1/CPLD2:15/18
CMM CPLD Version: 二供 V15(显示为V14)

CPU1 Type: Yitian710-128
CPU2 Type: NA

DIMM000: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM001: NA
DIMM010: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM011: NA
DIMM020: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM021: NA
DIMM030: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM031: NA
DIMM040: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM041: NA
DIMM050: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM051: NA
DIMM060: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM061: NA
DIMM070: Hynix HMCG94MEBRA121N DDR5 4800 64G
DIMM071: NA

RAID: SAS9560 -16i (设置为JBOD)

M.2
Intel SSDSCKKB480GZ 480G*1 FW: 7CV10100

12 SATA:
4 LFF combo BP*3 CPLD Version: 12
Slot0: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40
Slot1: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40
Slot2: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40
Slot3: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40
......
Slot11: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40

4 SSD:
2 SFF SATA BP2*2 CPLD1 version: 14
Slot0: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100
Slot1: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100
Slot2: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100
Slot3: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100

Front Panel:
FCB+PDB Board version : 21
Power Supply 1:长城 GW-CRPS1300D2WA
Power Supply 2:长城 GW-CRPS1300D2WA


How reproducible:
在倚天710 Arm平台 龙析8.6 (kernel版本在4.18之后)业内FIO压测工具做硬盘HDD 的按顺序128K混合读写

Steps to Reproduce:
1.进入OS以后下载tea脚本,并安装fio(fio-3.22)
2.执行以下测试步骤
a)测试之前清除系统相关log
#cd /root/tea/standalone/common_test/log-parser
#python3 log_parser.py -b
b)测试前收集sata相关信息
#cd /root/tea/standalone/storage
#./storage_log_collect.sh -c sata
c)开始多盘随机IO稳定性测试
#cd /root/tea/standalone/storage
#nohup python3 disk_fio.py -t 7200 -d '/dev/sdf /dev/sdg /dev/sdh /dev/sdi /dev/sdj /dev/sdk /dev/skl /dev/sdm /dev/sdn /dev/sdo /dev/sdp /dev/sdq' -st seq -dt hdd -rt stress &
d)测试结束后收集系统相关log
#cd /root/tea/standalone/common_test/log-parser
#python3 log_parser.py -a
e)测试结束后收集sata相关信息
#cd /root/tea/standalone/storage/storage_nvme_log
#./storage_log_collect.sh -c sata
f)对所有收集的log进行分析


Actual results:
1.FIO输出无报错,系统无异常报错。
2.测试完毕之后,确认smart日志中的Raw_Read_Error_Rate (ID 1),Reallocated_Sector_Ct (ID 5),Reallocated_Event_Count (ID 196),Current_Pending_Sector (ID 197),Offline_Uncorrectable (ID 198),UDMA_CRC_Error_Count (ID 199)等信息在内的SSD SMART信息无新增计数(注意: Seagate HDD 在检查Raw_Read_Error_Rate信息有无增长时判断VALUE 和THRESH item,VALUE < THRESH 则失败,VALUE >= THRESH则通过)。
3.1024kb_1job_32qd顺序混合读写,所有盘出现了:低于平均值70%的监控点超过总点数的千分之一,且有低于平均值50%的监控点(平均值从.csv文件中获取)。

Expected results:
1.FIO输出无报错,系统无异常报错。
2.测试完毕之后,确认smart日志中的Raw_Read_Error_Rate (ID 1),Reallocated_Sector_Ct (ID 5),Reallocated_Event_Count (ID 196),Current_Pending_Sector (ID 197),Offline_Uncorrectable (ID 198),UDMA_CRC_Error_Count (ID 199)等信息在内的SSD SMART信息无新增计数(注意: Seagate HDD 在检查Raw_Read_Error_Rate信息有无增长时判断VALUE 和THRESH item,VALUE < THRESH 则失败,VALUE >= THRESH则通过)。
3.所有槽位的待测试HDD,去除测试开始之后和结束之前60秒内的数据,不同测试项目的秒级性能监控数据中,低于平均值70%的监控点不能超过总点数的千分之一(平均值从.csv文件中获取)。
4.所有槽位的待测试HDD,去除测试开始之后和结束之前60秒内的数据,不同测试项目的秒级性能监控数据中,不允许出现低于平均值50%的监控点(平均值从.csv文件中获取)。

Additional info: