Created attachment 520 [details] 附件是跑出来的数据散点图 Description of problem: HDD多盘顺序混合读写IO稳定性不达标(所有盘, 1024kb_1job_32qd) Version-Release number of selected component (if applicable): SW/FW: BIOS Version: 1.2.M1.AL.E.135 BMC Version: 2.23.01 OS: Anolis OS 8.6 kernel: 5.10.134-12_rc2.an8.aarch64 FW: V100R002S02B050 HW: MLB HW Version: MLB S/N: MLB CPLD Version: CPLD1/CPLD2:15/18 CMM CPLD Version: 二供 V15(显示为V14) CPU1 Type: Yitian710-128 CPU2 Type: NA DIMM000: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM001: NA DIMM010: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM011: NA DIMM020: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM021: NA DIMM030: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM031: NA DIMM040: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM041: NA DIMM050: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM051: NA DIMM060: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM061: NA DIMM070: Hynix HMCG94MEBRA121N DDR5 4800 64G DIMM071: NA RAID: SAS9560 -16i (设置为JBOD) M.2 Intel SSDSCKKB480GZ 480G*1 FW: 7CV10100 12 SATA: 4 LFF combo BP*3 CPLD Version: 12 Slot0: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40 Slot1: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40 Slot2: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40 Slot3: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40 ...... Slot11: Seagate Exos X16 ST12000NM001G-2MV103 FW: SB40 4 SSD: 2 SFF SATA BP2*2 CPLD1 version: 14 Slot0: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100 Slot1: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100 Slot2: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100 Slot3: INTEL S4520 SSDSC2KB480GZ 480G FW: 7CV10100 Front Panel: FCB+PDB Board version : 21 Power Supply 1:长城 GW-CRPS1300D2WA Power Supply 2:长城 GW-CRPS1300D2WA How reproducible: 在倚天710 Arm平台 龙析8.6 (kernel版本在4.18之后)业内FIO压测工具做硬盘HDD 的按顺序128K混合读写 Steps to Reproduce: 1.进入OS以后下载tea脚本,并安装fio(fio-3.22) 2.执行以下测试步骤 a)测试之前清除系统相关log #cd /root/tea/standalone/common_test/log-parser #python3 log_parser.py -b b)测试前收集sata相关信息 #cd /root/tea/standalone/storage #./storage_log_collect.sh -c sata c)开始多盘随机IO稳定性测试 #cd /root/tea/standalone/storage #nohup python3 disk_fio.py -t 7200 -d '/dev/sdf /dev/sdg /dev/sdh /dev/sdi /dev/sdj /dev/sdk /dev/skl /dev/sdm /dev/sdn /dev/sdo /dev/sdp /dev/sdq' -st seq -dt hdd -rt stress & d)测试结束后收集系统相关log #cd /root/tea/standalone/common_test/log-parser #python3 log_parser.py -a e)测试结束后收集sata相关信息 #cd /root/tea/standalone/storage/storage_nvme_log #./storage_log_collect.sh -c sata f)对所有收集的log进行分析 Actual results: 1.FIO输出无报错,系统无异常报错。 2.测试完毕之后,确认smart日志中的Raw_Read_Error_Rate (ID 1),Reallocated_Sector_Ct (ID 5),Reallocated_Event_Count (ID 196),Current_Pending_Sector (ID 197),Offline_Uncorrectable (ID 198),UDMA_CRC_Error_Count (ID 199)等信息在内的SSD SMART信息无新增计数(注意: Seagate HDD 在检查Raw_Read_Error_Rate信息有无增长时判断VALUE 和THRESH item,VALUE < THRESH 则失败,VALUE >= THRESH则通过)。 3.1024kb_1job_32qd顺序混合读写,所有盘出现了:低于平均值70%的监控点超过总点数的千分之一,且有低于平均值50%的监控点(平均值从.csv文件中获取)。 Expected results: 1.FIO输出无报错,系统无异常报错。 2.测试完毕之后,确认smart日志中的Raw_Read_Error_Rate (ID 1),Reallocated_Sector_Ct (ID 5),Reallocated_Event_Count (ID 196),Current_Pending_Sector (ID 197),Offline_Uncorrectable (ID 198),UDMA_CRC_Error_Count (ID 199)等信息在内的SSD SMART信息无新增计数(注意: Seagate HDD 在检查Raw_Read_Error_Rate信息有无增长时判断VALUE 和THRESH item,VALUE < THRESH 则失败,VALUE >= THRESH则通过)。 3.所有槽位的待测试HDD,去除测试开始之后和结束之前60秒内的数据,不同测试项目的秒级性能监控数据中,低于平均值70%的监控点不能超过总点数的千分之一(平均值从.csv文件中获取)。 4.所有槽位的待测试HDD,去除测试开始之后和结束之前60秒内的数据,不同测试项目的秒级性能监控数据中,不允许出现低于平均值50%的监控点(平均值从.csv文件中获取)。 Additional info: