Thursday, November 21, 2024

Giám sát ổ cứng với Smartctl

-

1. Tổng quan.

Hiện nay, dữ liệu đã trở thành một tài sản quý báu, và việc bảo vệ dữ liệu quan trọng trên ổ đĩa cứng trở nên cực kỳ quan trọng. Để đảm bảo tính toàn vẹn và hiệu suất của ổ đĩa, người dùng cần theo dõi chúng liên tục. Đây là nhiệm vụ của Smartctl – một tiện ích hữu ích cho việc kiểm tra và giám sát tình trạng ổ đĩa cứng trong hệ thống.

Smartctl là một ứng dụng dòng lệnh dành cho hệ điều hành Linux và UNIX, được sử dụng để theo dõi và kiểm tra tình trạng của ổ đĩa cứng. Smartctl sử dụng công nghệ SMART (Self-Monitoring, Analysis, and Reporting Technology) tích hợp sẵn trong hầu hết các ổ đĩa cứng hiện đại để cung cấp thông tin về sức kháng của ổ đĩa trước khi gặp sự cố.

Thông qua các lệnh và tùy chọn khác nhau, Smartctl cho phép bạn kiểm tra thông tin như nhiệt độ, tần suất lỗi, thời gian hoạt động, và nhiều thông số khác của ổ đĩa cứng. Nó cung cấp cơ hội để ngăn chặn sự cố ổ đĩa trước khi chúng xảy ra, từ đó giúp bảo vệ dữ liệu quan trọng và kéo dài tuổi thọ của ổ đĩa.

Từ việc kiểm tra các thông số SMART đến việc lên lịch kiểm tra định kỳ và cảnh báo qua email khi có sự cố, Smartctl là một công cụ mạnh mẽ trong việc quản lý ổ đĩa cứng và đảm bảo tính ổn định của hệ thống.

2. Cài đặt smartctl.

Để cài đặt smartctl trên hệ điều hành Linux (ví dụ: Ubuntu), bạn sử dụng lệnh “sudo apt install smartmontools”.

sudo apt install smartmontools -y

Sau khi cài đặt, bạn đã sẵn sàng sử dụng công cụ này.

3. Sử dụng smartctl.

3.1. Kiểm tra thông tin ở cứng.

Để sử dụng smartctl, bạn có thể sử dụng lệnh sudo smartctl -i /dev/sda, trong đó /dev/sda là tên của ổ đĩa mà bạn muốn kiểm tra.

$ smartctl -i /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     SAMSUNG MZ7LM240HMHQ-00005
Serial Number:    S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity:    240,057,409,536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Oct 31 21:09:05 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

3.2. Kiểm tra thông tin ổ cứng sử dụng tham số short.

Giúp kiểm tra thu thập thông tin quan trọng về tình trạng của ổ đĩa và đánh giá sự ổn định của nó. Để sử dụng tham số short, bạn sử dụng lệnh sudo smartctl -t short -a /dev/sda. Trong đó, /dev/sda là đường dẫn của ổ cứng mà bạn muốn kiểm tra.

Khi bạn kiểm tra sử dụng tham số short công cụ smartctl sẽ trả về một số thông tin ngắn gọn về tình trạng của ổ đĩa. Điều này giúp bạn xác định xem ổ đĩa có vấn đề gì hay không và cung cấp cho bạn một cái nhìn sơ bộ về tình trạng hiện tại của nó.

Nhưng hãy nhớ rằng kết quả của tham số short chỉ là một cái nhìn tổng quan. Để có cái nhìn chi tiết hơn về sức khỏe của ổ đĩa, bạn cần xem thông tin SMART của ổ đĩa bằng cách sử dụng lệnh “sudo smartctl -a /dev/sdX”. Mình cũng khuyên bạn nên sử dụng cả hai loại kiểm tra để đảm bảo có dữ liệu chính xác về tình trạng của ổ đĩa SSD.

$ smartctl -t long -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     SAMSUNG MZ7LM240HMHQ-00005
Serial Number:    S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity:    240,057,409,536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Oct 31 21:07:37 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline
data collection:                ( 1740) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  29) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       45261
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       25
177 Wear_Leveling_Count     0x0013   097   097   005    Pre-fail  Always       -       159
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013   100   100   010    Pre-fail  Always       -       797
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   068   056   000    Old_age   Always       -       32
194 Temperature_Celsius     0x0022   068   056   000    Old_age   Always       -       32 (Min/Max 18/44)
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
202 Exception_Mode_Status   0x0033   100   100   010    Pre-fail  Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       15
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       58629026428
242 Total_LBAs_Read         0x0032   099   099   000    Old_age   Always       -       4361689348
243 SATA_Downshift_Ct       0x0032   100   100   000    Old_age   Always       -       0
244 Thermal_Throttle_St     0x0032   100   100   000    Old_age   Always       -       0
245 Timed_Workld_Media_Wear 0x0032   100   100   000    Old_age   Always       -       65535
246 Timed_Workld_RdWr_Ratio 0x0032   100   100   000    Old_age   Always       -       65535
247 Timed_Workld_Timer      0x0032   100   100   000    Old_age   Always       -       65535
251 NAND_Writes             0x0032   100   100   000    Old_age   Always       -       85501749248

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     45260         -
# 2  Short offline       Completed without error       00%     45259         -
# 3  Short offline       Completed without error       00%     45258         -
# 4  Short offline       Completed without error       00%     45257         -
# 5  Short offline       Completed without error       00%     45256         -
# 6  Short offline       Completed without error       00%     45255         -
# 7  Short offline       Completed without error       00%     45254         -
# 8  Short offline       Completed without error       00%     45253         -
# 9  Short offline       Completed without error       00%     45252         -
#10  Short offline       Completed without error       00%     45251         -
#11  Short offline       Completed without error       00%     45250         -
#12  Short offline       Completed without error       00%     45249         -
#13  Short offline       Completed without error       00%     45248         -
#14  Short offline       Completed without error       00%     45247         -
#15  Short offline       Completed without error       00%     45246         -
#16  Short offline       Completed without error       00%     45245         -
#17  Short offline       Completed without error       00%     45244         -
#18  Short offline       Completed without error       00%     45243         -
#19  Short offline       Completed without error       00%     45242         -
#20  Short offline       Completed without error       00%     45241         -
#21  Short offline       Completed without error       00%     45240         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  255  9475072  9540607  Read_scanning was completed without error
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.
root@pve-node1:~# ^C
root@pve-node1:~# ^C
root@pve-node1:~# smartctl -t short -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     SAMSUNG MZ7LM240HMHQ-00005
Serial Number:    S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity:    240,057,409,536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Oct 31 21:08:10 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline
data collection:                ( 1740) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  29) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       45261
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       25
177 Wear_Leveling_Count     0x0013   097   097   005    Pre-fail  Always       -       159
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013   100   100   010    Pre-fail  Always       -       797
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   067   056   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0022   067   056   000    Old_age   Always       -       33 (Min/Max 18/44)
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
root@pve-node1:~# smartctl -t short -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     SAMSUNG MZ7LM240HMHQ-00005
Serial Number:    S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity:    240,057,409,536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Oct 31 21:08:13 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline
data collection:                ( 1740) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  29) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       45261
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       25
177 Wear_Leveling_Count     0x0013   097   097   005    Pre-fail  Always       -       159
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013   100   100   010    Pre-fail  Always       -       797
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   067   056   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0022   067   056   000    Old_age   Always       -       33 (Min/Max 18/44)
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
202 Exception_Mode_Status   0x0033   100   100   010    Pre-fail  Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       15
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       58629031020
242 Total_LBAs_Read         0x0032   099   099   000    Old_age   Always       -       4361695492
243 SATA_Downshift_Ct       0x0032   100   100   000    Old_age   Always       -       0
244 Thermal_Throttle_St     0x0032   100   100   000    Old_age   Always       -       0
245 Timed_Workld_Media_Wear 0x0032   100   100   000    Old_age   Always       -       65535
246 Timed_Workld_RdWr_Ratio 0x0032   100   100   000    Old_age   Always       -       65535
247 Timed_Workld_Timer      0x0032   100   100   000    Old_age   Always       -       65535
251 NAND_Writes             0x0032   100   100   000    Old_age   Always       -       85501762304

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     45260         -
# 2  Short offline       Completed without error       00%     45259         -
# 3  Short offline       Completed without error       00%     45258         -
# 4  Short offline       Completed without error       00%     45257         -
# 5  Short offline       Completed without error       00%     45256         -
# 6  Short offline       Completed without error       00%     45255         -
# 7  Short offline       Completed without error       00%     45254         -
# 8  Short offline       Completed without error       00%     45253         -
# 9  Short offline       Completed without error       00%     45252         -
#10  Short offline       Completed without error       00%     45251         -
#11  Short offline       Completed without error       00%     45250         -
#12  Short offline       Completed without error       00%     45249         -
#13  Short offline       Completed without error       00%     45248         -
#14  Short offline       Completed without error       00%     45247         -
#15  Short offline       Completed without error       00%     45246         -
#16  Short offline       Completed without error       00%     45245         -
#17  Short offline       Completed without error       00%     45244         -
#18  Short offline       Completed without error       00%     45243         -
#19  Short offline       Completed without error       00%     45242         -
#20  Short offline       Completed without error       00%     45241         -
#21  Short offline       Completed without error       00%     45240         -

SMART Selective self-test log data structure revision number 1
 SPAN   MIN_LBA   MAX_LBA  CURRENT_TEST_STATUS
    1         0         0  Not_testing
    2         0         0  Not_testing
    3         0         0  Not_testing
    4         0         0  Not_testing
    5         0         0  Not_testing
  255  15371776  15437311  Read_scanning was completed without error
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.

3.3. Kiểm tra thông tin ổ cứng sử dụng tham số long.

Kiểm tra với tham số short giúp bạn nhanh chóng đánh giá tình trạng cơ bản của ổ đĩa, trong khi kiểm tra với tham số long cung cấp kiểm tra toàn diện hơn.

Để chạy kiểm tra với tham số long, sử dụng lệnh sudo smartctl -t long -a /dev/sda. Cũng ở đây, /dev/sda là đường dẫn của ổ đĩa cứng cần kiểm tra.

Sau khi hoàn thành kiểm tra thì một trong những điều quan trọng cần kiểm tra là kết quả của SMART (SMART overall-health self-assessment test) có hiển thị “PASSED” hay không. Nếu nó không được đánh dấu là “PASSED”, điều này có thể có vấn đề với ổ đĩa SSD.

Kiểm tra với tham số short và với tham số long sẽ kiểm tra các khía cạnh khác nhau của ổ đĩa bao gồm các tính năng điện tử, cơ học và đọc/kiểm tra dữ liệu trên ổ đĩa. Kiểm tra với tham số long chạy toàn bộ các bước của kiểm tra với tham số short nhưng không giới hạn thời gian và kiểm tra toàn bộ ổ đĩa.

Kiểm tra với tham số short mất khoảng hai phút để hoàn thành, trong khi kiểm tra với tham số long có thể mất từ 20-60 phút, tùy thuộc vào cấu hình của ổ đĩa và phần cứng của bạn.

$ smartctl -t long -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     SAMSUNG MZ7LM240HMHQ-00005
Serial Number:    S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity:    240,057,409,536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Oct 31 21:07:37 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline
data collection:                ( 1740) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  29) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       45261
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       25
177 Wear_Leveling_Count     0x0013   097   097   005    Pre-fail  Always       -       159
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013   100   100   010    Pre-fail  Always       -       797
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   068   056   000    Old_age   Always       -       32
194 Temperature_Celsius     0x0022   068   056   000    Old_age   Always       -       32 (Min/Max 18/44)
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
202 Exception_Mode_Status   0x0033   100   100   010    Pre-fail  Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       15
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       58629026428
242 Total_LBAs_Read         0x0032   099   099   000    Old_age   Always       -       4361689348
243 SATA_Downshift_Ct       0x0032   100   100   000    Old_age   Always       -       0
244 Thermal_Throttle_St     0x0032   100   100   000    Old_age   Always       -       0
245 Timed_Workld_Media_Wear 0x0032   100   100   000    Old_age   Always       -       65535
246 Timed_Workld_RdWr_Ratio 0x0032   100   100   000    Old_age   Always       -       65535
247 Timed_Workld_Timer      0x0032   100   100   000    Old_age   Always       -       65535
251 NAND_Writes             0x0032   100   100   000    Old_age   Always       -       85501749248

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     45260         -
# 2  Short offline       Completed without error       00%     45259         -
# 3  Short offline       Completed without error       00%     45258         -
# 4  Short offline       Completed without error       00%     45257         -
# 5  Short offline       Completed without error       00%     45256         -
# 6  Short offline       Completed without error       00%     45255         -
# 7  Short offline       Completed without error       00%     45254         -
# 8  Short offline       Completed without error       00%     45253         -
# 9  Short offline       Completed without error       00%     45252         -
#10  Short offline       Completed without error       00%     45251         -
#11  Short offline       Completed without error       00%     45250         -
#12  Short offline       Completed without error       00%     45249         -
#13  Short offline       Completed without error       00%     45248         -
#14  Short offline       Completed without error       00%     45247         -
#15  Short offline       Completed without error       00%     45246         -
#16  Short offline       Completed without error       00%     45245         -
#17  Short offline       Completed without error       00%     45244         -
#18  Short offline       Completed without error       00%     45243         -
#19  Short offline       Completed without error       00%     45242         -
#20  Short offline       Completed without error       00%     45241         -
#21  Short offline       Completed without error       00%     45240         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  255  9475072  9540607  Read_scanning was completed without error
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.

3.4. Kiểm tra phần trăm tuổi thọ còn lại và thời gian hoạt động của ổ đĩa cứng.

Để xem kết quả của kiểm tra, bạn có thể sử dụng lệnh “sudo smartctl -a /dev/sdX” (ở đây, “/dev/sdX” là tên ổ đĩa đã được kiểm tra).

Bằng cách chạy kiểm tra với tham số short và kiểm tra với tham số long định kỳ, bạn có thể theo dõi và đảm bảo tính ổn định của ổ đĩa SSD trên máy chủ Linux của bạn.

$ smartctl -A /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       45261
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       25
177 Wear_Leveling_Count     0x0013   097   097   005    Pre-fail  Always       -       159
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013   100   100   010    Pre-fail  Always       -       797
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   068   056   000    Old_age   Always       -       32
194 Temperature_Celsius     0x0022   068   056   000    Old_age   Always       -       32 (Min/Max 18/44)
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
202 Exception_Mode_Status   0x0033   100   100   010    Pre-fail  Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       15
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       58629020324
242 Total_LBAs_Read         0x0032   099   099   000    Old_age   Always       -       4361680100
243 SATA_Downshift_Ct       0x0032   100   100   000    Old_age   Always       -       0
244 Thermal_Throttle_St     0x0032   100   100   000    Old_age   Always       -       0
245 Timed_Workld_Media_Wear 0x0032   100   100   000    Old_age   Always       -       65535
246 Timed_Workld_RdWr_Ratio 0x0032   100   100   000    Old_age   Always       -       65535
247 Timed_Workld_Timer      0x0032   100   100   000    Old_age   Always       -       65535
251 NAND_Writes             0x0032   100   100   000    Old_age   Always       -       85501730048

Một số giá trị quan trọng chúng ta cần để ý.

  • Power_On_Hours (Số giờ hoạt động): Đây là thời gian mà ổ đĩa đã hoạt động tính bằng giờ. Mỗi dòng ổ đĩa cụ thể (mã sản phẩm) thường có một số giờ được đề xuất mà nó có thể hoạt động mà không gặp vấn đề lớn. Nếu ổ đĩa của bạn tiếp tục hoạt động sau khi vượt quá giới hạn này, có thể gây ra sự cố. Điều này thường áp dụng cho các ổ đĩa cứng thể rắn (SSD) cũ hơn, còn đối với SSD hiện đại, tuổi thọ thường rất dài và không gây lo lắng.
  • Wear_Leveling_Count (Đếm tuổi thọ còn lại): Giá trị này đại diện cho phần trăm tuổi thọ còn lại của ổ đĩa, bắt đầu từ 100 và giảm dần khi ổ đĩa được sử dụng và ghi dữ liệu. Một giá trị cao (gần 100) cho biết ổ đĩa vẫn còn rất tốt và có nhiều tuổi thọ. Nếu giá trị này giảm đáng kể xuống dưới 100, có thể ngụ ý rằng ổ đĩa đang trải qua độ mòn và có nguy cơ gặp vấn đề.
  • Giá trị và Worst Value (Giá trị và giá trị tệ nhất): Cột “Value” (Giá trị) thể hiện giá trị hiện tại của thuộc tính, trong khi cột “Worst Value” (Giá trị Tệ Nhất) thể hiện giá trị tệ nhất mà thuộc tính đã từng đạt được. So sánh giữa giá trị hiện tại và giá trị tệ nhất có thể giúp bạn đánh giá sự biến đổi của thuộc tính theo thời gian.

Một điều quan trọng để lưu ý là các nhà sản xuất khác nhau có thể báo cáo thông tin khác nhau thông qua smartctl. Bài viết này thể hiện ví dụ về ổ đĩa SSD của Samsung có giá trị Wear_Leveling_Count rất cao (97), đề xuất rằng đây là một ổ đĩa khá lành mạnh. Tuy nhiên, đối với các ổ đĩa từ các nhà sản xuất khác, thông tin báo cáo có thể khác. Do đó, việc kiểm tra với tham số sort và long có thể giúp bạn đảm bảo sức khỏe của ổ đĩa dựa trên các báo cáo đó.

Một số điểm cần lưu ý khi sử dụng công cụ smartctl khi kiểm tra SSD.

Có hai điểm cần lưu ý khi sử dụng công cụ smartctl để kiểm tra SSD.

  • Khả năng hiểu sai thông tin được báo cáo:
    • Việc hiểu sai thông tin mà smartctl báo cáo có thể dẫn đến việc đánh giá sai về tình trạng của ổ đĩa. Do đó, rất quan trọng để bạn biết chính xác về hãng và mã sản phẩm của ổ đĩa mà bạn đang kiểm tra. Có được thông tin này sẽ giúp bạn nắm rõ thông số chuẩn của ổ đĩa và có thể tìm hiểu về mọi dấu hiệu bất thường trong thông tin báo cáo.
  • Sử dụng các công cụ kiểm tra đi kèm.
    • Việc sử dụng phần mềm đi kèm sẽ đóng góp phần quan trọng của việc sử dụng các công cụ kiểm tra như kiểm tra với tham số short và kiểm tra với tham số long. Mặc dù bạn có thể sử dụng lệnh kiểm tra thuộc tính (ví dụ: smartctl -A /dev/sdX) để xem thông tin SMART, nhưng bạn sẽ thiếu thông tin kết quả của các kiểm tra này. Chạy kiểm tra với tham số short và kiểm tra với tham số long định kỳ cho phép bạn cập nhật thông tin về tình trạng của ổ đĩa và đảm bảo bạn có thông tin mới nhất.

Những điểm quan trọng này nhấn mạnh rằng việc kiểm tra và theo dõi tình trạng của ổ đĩa SSD đòi hỏi sự hiểu biết và thực hiện các bước kiểm tra thường xuyên để đảm bảo tính toàn vẹn và hiệu suất của ổ đĩa.

4. Kết luận.

Smartctl là một công cụ quan trọng giúp theo dõi tình trạng của ổ đĩa cứng, giảm nguy cơ mất dữ liệu và giúp tối ưu hóa hiệu suất của hệ thống. Việc sử dụng Smartctl đơn giản, nhưng mang lại nhiều lợi ích đáng kể cho người dùng và quản trị hệ thống. Đối với bất kỳ ai quan tâm đến việc bảo vệ dữ liệu và đảm bảo sự ổn định của hệ thống, Smartctl là một công cụ không thể thiếu.

LEAVE A REPLY

Please enter your comment!
Please enter your name here

4,956FansLike
256FollowersFollow
223SubscribersSubscribe
spot_img

Related Stories