1. Tổng quan.
Hiện nay, dữ liệu đã trở thành một tài sản quý báu, và việc bảo vệ dữ liệu quan trọng trên ổ đĩa cứng trở nên cực kỳ quan trọng. Để đảm bảo tính toàn vẹn và hiệu suất của ổ đĩa, người dùng cần theo dõi chúng liên tục. Đây là nhiệm vụ của Smartctl – một tiện ích hữu ích cho việc kiểm tra và giám sát tình trạng ổ đĩa cứng trong hệ thống.
Smartctl là một ứng dụng dòng lệnh dành cho hệ điều hành Linux và UNIX, được sử dụng để theo dõi và kiểm tra tình trạng của ổ đĩa cứng. Smartctl sử dụng công nghệ SMART (Self-Monitoring, Analysis, and Reporting Technology) tích hợp sẵn trong hầu hết các ổ đĩa cứng hiện đại để cung cấp thông tin về sức kháng của ổ đĩa trước khi gặp sự cố.
Thông qua các lệnh và tùy chọn khác nhau, Smartctl cho phép bạn kiểm tra thông tin như nhiệt độ, tần suất lỗi, thời gian hoạt động, và nhiều thông số khác của ổ đĩa cứng. Nó cung cấp cơ hội để ngăn chặn sự cố ổ đĩa trước khi chúng xảy ra, từ đó giúp bảo vệ dữ liệu quan trọng và kéo dài tuổi thọ của ổ đĩa.
Từ việc kiểm tra các thông số SMART đến việc lên lịch kiểm tra định kỳ và cảnh báo qua email khi có sự cố, Smartctl là một công cụ mạnh mẽ trong việc quản lý ổ đĩa cứng và đảm bảo tính ổn định của hệ thống.
2. Cài đặt smartctl.
Để cài đặt smartctl trên hệ điều hành Linux (ví dụ: Ubuntu), bạn sử dụng lệnh “sudo apt install smartmontools”.
sudo apt install smartmontools -y
Sau khi cài đặt, bạn đã sẵn sàng sử dụng công cụ này.
3. Sử dụng smartctl.
3.1. Kiểm tra thông tin ở cứng.
Để sử dụng smartctl, bạn có thể sử dụng lệnh sudo smartctl -i /dev/sda
, trong đó /dev/sda
là tên của ổ đĩa mà bạn muốn kiểm tra.
$ smartctl -i /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: SAMSUNG MZ7LM240HMHQ-00005
Serial Number: S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Oct 31 21:09:05 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
3.2. Kiểm tra thông tin ổ cứng sử dụng tham số short.
Giúp kiểm tra thu thập thông tin quan trọng về tình trạng của ổ đĩa và đánh giá sự ổn định của nó. Để sử dụng tham số short, bạn sử dụng lệnh sudo smartctl -t short -a /dev/sda
. Trong đó, /dev/sda
là đường dẫn của ổ cứng mà bạn muốn kiểm tra.
Khi bạn kiểm tra sử dụng tham số short công cụ smartctl sẽ trả về một số thông tin ngắn gọn về tình trạng của ổ đĩa. Điều này giúp bạn xác định xem ổ đĩa có vấn đề gì hay không và cung cấp cho bạn một cái nhìn sơ bộ về tình trạng hiện tại của nó.
Nhưng hãy nhớ rằng kết quả của tham số short chỉ là một cái nhìn tổng quan. Để có cái nhìn chi tiết hơn về sức khỏe của ổ đĩa, bạn cần xem thông tin SMART của ổ đĩa bằng cách sử dụng lệnh “sudo smartctl -a /dev/sdX”. Mình cũng khuyên bạn nên sử dụng cả hai loại kiểm tra để đảm bảo có dữ liệu chính xác về tình trạng của ổ đĩa SSD.
$ smartctl -t long -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: SAMSUNG MZ7LM240HMHQ-00005
Serial Number: S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Oct 31 21:07:37 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 1740) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 29) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 45261
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 25
177 Wear_Leveling_Count 0x0013 097 097 005 Pre-fail Always - 159
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 797
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 068 056 000 Old_age Always - 32
194 Temperature_Celsius 0x0022 068 056 000 Old_age Always - 32 (Min/Max 18/44)
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
202 Exception_Mode_Status 0x0033 100 100 010 Pre-fail Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 15
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 58629026428
242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 4361689348
243 SATA_Downshift_Ct 0x0032 100 100 000 Old_age Always - 0
244 Thermal_Throttle_St 0x0032 100 100 000 Old_age Always - 0
245 Timed_Workld_Media_Wear 0x0032 100 100 000 Old_age Always - 65535
246 Timed_Workld_RdWr_Ratio 0x0032 100 100 000 Old_age Always - 65535
247 Timed_Workld_Timer 0x0032 100 100 000 Old_age Always - 65535
251 NAND_Writes 0x0032 100 100 000 Old_age Always - 85501749248
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 45260 -
# 2 Short offline Completed without error 00% 45259 -
# 3 Short offline Completed without error 00% 45258 -
# 4 Short offline Completed without error 00% 45257 -
# 5 Short offline Completed without error 00% 45256 -
# 6 Short offline Completed without error 00% 45255 -
# 7 Short offline Completed without error 00% 45254 -
# 8 Short offline Completed without error 00% 45253 -
# 9 Short offline Completed without error 00% 45252 -
#10 Short offline Completed without error 00% 45251 -
#11 Short offline Completed without error 00% 45250 -
#12 Short offline Completed without error 00% 45249 -
#13 Short offline Completed without error 00% 45248 -
#14 Short offline Completed without error 00% 45247 -
#15 Short offline Completed without error 00% 45246 -
#16 Short offline Completed without error 00% 45245 -
#17 Short offline Completed without error 00% 45244 -
#18 Short offline Completed without error 00% 45243 -
#19 Short offline Completed without error 00% 45242 -
#20 Short offline Completed without error 00% 45241 -
#21 Short offline Completed without error 00% 45240 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
255 9475072 9540607 Read_scanning was completed without error
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.
root@pve-node1:~# ^C
root@pve-node1:~# ^C
root@pve-node1:~# smartctl -t short -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: SAMSUNG MZ7LM240HMHQ-00005
Serial Number: S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Oct 31 21:08:10 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 1740) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 29) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 45261
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 25
177 Wear_Leveling_Count 0x0013 097 097 005 Pre-fail Always - 159
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 797
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 067 056 000 Old_age Always - 33
194 Temperature_Celsius 0x0022 067 056 000 Old_age Always - 33 (Min/Max 18/44)
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
root@pve-node1:~# smartctl -t short -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: SAMSUNG MZ7LM240HMHQ-00005
Serial Number: S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Oct 31 21:08:13 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 1740) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 29) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 45261
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 25
177 Wear_Leveling_Count 0x0013 097 097 005 Pre-fail Always - 159
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 797
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 067 056 000 Old_age Always - 33
194 Temperature_Celsius 0x0022 067 056 000 Old_age Always - 33 (Min/Max 18/44)
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
202 Exception_Mode_Status 0x0033 100 100 010 Pre-fail Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 15
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 58629031020
242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 4361695492
243 SATA_Downshift_Ct 0x0032 100 100 000 Old_age Always - 0
244 Thermal_Throttle_St 0x0032 100 100 000 Old_age Always - 0
245 Timed_Workld_Media_Wear 0x0032 100 100 000 Old_age Always - 65535
246 Timed_Workld_RdWr_Ratio 0x0032 100 100 000 Old_age Always - 65535
247 Timed_Workld_Timer 0x0032 100 100 000 Old_age Always - 65535
251 NAND_Writes 0x0032 100 100 000 Old_age Always - 85501762304
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 45260 -
# 2 Short offline Completed without error 00% 45259 -
# 3 Short offline Completed without error 00% 45258 -
# 4 Short offline Completed without error 00% 45257 -
# 5 Short offline Completed without error 00% 45256 -
# 6 Short offline Completed without error 00% 45255 -
# 7 Short offline Completed without error 00% 45254 -
# 8 Short offline Completed without error 00% 45253 -
# 9 Short offline Completed without error 00% 45252 -
#10 Short offline Completed without error 00% 45251 -
#11 Short offline Completed without error 00% 45250 -
#12 Short offline Completed without error 00% 45249 -
#13 Short offline Completed without error 00% 45248 -
#14 Short offline Completed without error 00% 45247 -
#15 Short offline Completed without error 00% 45246 -
#16 Short offline Completed without error 00% 45245 -
#17 Short offline Completed without error 00% 45244 -
#18 Short offline Completed without error 00% 45243 -
#19 Short offline Completed without error 00% 45242 -
#20 Short offline Completed without error 00% 45241 -
#21 Short offline Completed without error 00% 45240 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
255 15371776 15437311 Read_scanning was completed without error
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.
3.3. Kiểm tra thông tin ổ cứng sử dụng tham số long.
Kiểm tra với tham số short giúp bạn nhanh chóng đánh giá tình trạng cơ bản của ổ đĩa, trong khi kiểm tra với tham số long cung cấp kiểm tra toàn diện hơn.
Để chạy kiểm tra với tham số long, sử dụng lệnh sudo smartctl -t long -a /dev/sda
. Cũng ở đây, /dev/sda
là đường dẫn của ổ đĩa cứng cần kiểm tra.
Sau khi hoàn thành kiểm tra thì một trong những điều quan trọng cần kiểm tra là kết quả của SMART (SMART overall-health self-assessment test) có hiển thị “PASSED” hay không. Nếu nó không được đánh dấu là “PASSED”, điều này có thể có vấn đề với ổ đĩa SSD.
Kiểm tra với tham số short và với tham số long sẽ kiểm tra các khía cạnh khác nhau của ổ đĩa bao gồm các tính năng điện tử, cơ học và đọc/kiểm tra dữ liệu trên ổ đĩa. Kiểm tra với tham số long chạy toàn bộ các bước của kiểm tra với tham số short nhưng không giới hạn thời gian và kiểm tra toàn bộ ổ đĩa.
Kiểm tra với tham số short mất khoảng hai phút để hoàn thành, trong khi kiểm tra với tham số long có thể mất từ 20-60 phút, tùy thuộc vào cấu hình của ổ đĩa và phần cứng của bạn.
$ smartctl -t long -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: SAMSUNG MZ7LM240HMHQ-00005
Serial Number: S2TWNX0JB02382
LU WWN Device Id: 5 002538 c408d0252
Firmware Version: GXT5204Q
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Oct 31 21:07:37 2023 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 1740) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 29) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 45261
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 25
177 Wear_Leveling_Count 0x0013 097 097 005 Pre-fail Always - 159
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 797
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 068 056 000 Old_age Always - 32
194 Temperature_Celsius 0x0022 068 056 000 Old_age Always - 32 (Min/Max 18/44)
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
202 Exception_Mode_Status 0x0033 100 100 010 Pre-fail Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 15
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 58629026428
242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 4361689348
243 SATA_Downshift_Ct 0x0032 100 100 000 Old_age Always - 0
244 Thermal_Throttle_St 0x0032 100 100 000 Old_age Always - 0
245 Timed_Workld_Media_Wear 0x0032 100 100 000 Old_age Always - 65535
246 Timed_Workld_RdWr_Ratio 0x0032 100 100 000 Old_age Always - 65535
247 Timed_Workld_Timer 0x0032 100 100 000 Old_age Always - 65535
251 NAND_Writes 0x0032 100 100 000 Old_age Always - 85501749248
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 45260 -
# 2 Short offline Completed without error 00% 45259 -
# 3 Short offline Completed without error 00% 45258 -
# 4 Short offline Completed without error 00% 45257 -
# 5 Short offline Completed without error 00% 45256 -
# 6 Short offline Completed without error 00% 45255 -
# 7 Short offline Completed without error 00% 45254 -
# 8 Short offline Completed without error 00% 45253 -
# 9 Short offline Completed without error 00% 45252 -
#10 Short offline Completed without error 00% 45251 -
#11 Short offline Completed without error 00% 45250 -
#12 Short offline Completed without error 00% 45249 -
#13 Short offline Completed without error 00% 45248 -
#14 Short offline Completed without error 00% 45247 -
#15 Short offline Completed without error 00% 45246 -
#16 Short offline Completed without error 00% 45245 -
#17 Short offline Completed without error 00% 45244 -
#18 Short offline Completed without error 00% 45243 -
#19 Short offline Completed without error 00% 45242 -
#20 Short offline Completed without error 00% 45241 -
#21 Short offline Completed without error 00% 45240 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
255 9475072 9540607 Read_scanning was completed without error
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Can't start self-test without aborting current test (90% remaining),
add '-t force' option to override, or run 'smartctl -X' to abort test.
3.4. Kiểm tra phần trăm tuổi thọ còn lại và thời gian hoạt động của ổ đĩa cứng.
Để xem kết quả của kiểm tra, bạn có thể sử dụng lệnh “sudo smartctl -a /dev/sdX” (ở đây, “/dev/sdX” là tên ổ đĩa đã được kiểm tra).
Bằng cách chạy kiểm tra với tham số short và kiểm tra với tham số long định kỳ, bạn có thể theo dõi và đảm bảo tính ổn định của ổ đĩa SSD trên máy chủ Linux của bạn.
$ smartctl -A /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.102-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 45261
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 25
177 Wear_Leveling_Count 0x0013 097 097 005 Pre-fail Always - 159
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 797
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 068 056 000 Old_age Always - 32
194 Temperature_Celsius 0x0022 068 056 000 Old_age Always - 32 (Min/Max 18/44)
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
202 Exception_Mode_Status 0x0033 100 100 010 Pre-fail Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 15
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 58629020324
242 Total_LBAs_Read 0x0032 099 099 000 Old_age Always - 4361680100
243 SATA_Downshift_Ct 0x0032 100 100 000 Old_age Always - 0
244 Thermal_Throttle_St 0x0032 100 100 000 Old_age Always - 0
245 Timed_Workld_Media_Wear 0x0032 100 100 000 Old_age Always - 65535
246 Timed_Workld_RdWr_Ratio 0x0032 100 100 000 Old_age Always - 65535
247 Timed_Workld_Timer 0x0032 100 100 000 Old_age Always - 65535
251 NAND_Writes 0x0032 100 100 000 Old_age Always - 85501730048
Một số giá trị quan trọng chúng ta cần để ý.
- Power_On_Hours (Số giờ hoạt động): Đây là thời gian mà ổ đĩa đã hoạt động tính bằng giờ. Mỗi dòng ổ đĩa cụ thể (mã sản phẩm) thường có một số giờ được đề xuất mà nó có thể hoạt động mà không gặp vấn đề lớn. Nếu ổ đĩa của bạn tiếp tục hoạt động sau khi vượt quá giới hạn này, có thể gây ra sự cố. Điều này thường áp dụng cho các ổ đĩa cứng thể rắn (SSD) cũ hơn, còn đối với SSD hiện đại, tuổi thọ thường rất dài và không gây lo lắng.
- Wear_Leveling_Count (Đếm tuổi thọ còn lại): Giá trị này đại diện cho phần trăm tuổi thọ còn lại của ổ đĩa, bắt đầu từ 100 và giảm dần khi ổ đĩa được sử dụng và ghi dữ liệu. Một giá trị cao (gần 100) cho biết ổ đĩa vẫn còn rất tốt và có nhiều tuổi thọ. Nếu giá trị này giảm đáng kể xuống dưới 100, có thể ngụ ý rằng ổ đĩa đang trải qua độ mòn và có nguy cơ gặp vấn đề.
- Giá trị và Worst Value (Giá trị và giá trị tệ nhất): Cột “Value” (Giá trị) thể hiện giá trị hiện tại của thuộc tính, trong khi cột “Worst Value” (Giá trị Tệ Nhất) thể hiện giá trị tệ nhất mà thuộc tính đã từng đạt được. So sánh giữa giá trị hiện tại và giá trị tệ nhất có thể giúp bạn đánh giá sự biến đổi của thuộc tính theo thời gian.
Một điều quan trọng để lưu ý là các nhà sản xuất khác nhau có thể báo cáo thông tin khác nhau thông qua smartctl. Bài viết này thể hiện ví dụ về ổ đĩa SSD của Samsung có giá trị Wear_Leveling_Count rất cao (97), đề xuất rằng đây là một ổ đĩa khá lành mạnh. Tuy nhiên, đối với các ổ đĩa từ các nhà sản xuất khác, thông tin báo cáo có thể khác. Do đó, việc kiểm tra với tham số sort và long có thể giúp bạn đảm bảo sức khỏe của ổ đĩa dựa trên các báo cáo đó.
Một số điểm cần lưu ý khi sử dụng công cụ smartctl khi kiểm tra SSD.
Có hai điểm cần lưu ý khi sử dụng công cụ smartctl để kiểm tra SSD.
- Khả năng hiểu sai thông tin được báo cáo:
- Việc hiểu sai thông tin mà smartctl báo cáo có thể dẫn đến việc đánh giá sai về tình trạng của ổ đĩa. Do đó, rất quan trọng để bạn biết chính xác về hãng và mã sản phẩm của ổ đĩa mà bạn đang kiểm tra. Có được thông tin này sẽ giúp bạn nắm rõ thông số chuẩn của ổ đĩa và có thể tìm hiểu về mọi dấu hiệu bất thường trong thông tin báo cáo.
- Sử dụng các công cụ kiểm tra đi kèm.
- Việc sử dụng phần mềm đi kèm sẽ đóng góp phần quan trọng của việc sử dụng các công cụ kiểm tra như kiểm tra với tham số short và kiểm tra với tham số long. Mặc dù bạn có thể sử dụng lệnh kiểm tra thuộc tính (ví dụ:
smartctl -A /dev/sdX
) để xem thông tin SMART, nhưng bạn sẽ thiếu thông tin kết quả của các kiểm tra này. Chạy kiểm tra với tham số short và kiểm tra với tham số long định kỳ cho phép bạn cập nhật thông tin về tình trạng của ổ đĩa và đảm bảo bạn có thông tin mới nhất.
- Việc sử dụng phần mềm đi kèm sẽ đóng góp phần quan trọng của việc sử dụng các công cụ kiểm tra như kiểm tra với tham số short và kiểm tra với tham số long. Mặc dù bạn có thể sử dụng lệnh kiểm tra thuộc tính (ví dụ:
Những điểm quan trọng này nhấn mạnh rằng việc kiểm tra và theo dõi tình trạng của ổ đĩa SSD đòi hỏi sự hiểu biết và thực hiện các bước kiểm tra thường xuyên để đảm bảo tính toàn vẹn và hiệu suất của ổ đĩa.
4. Kết luận.
Smartctl là một công cụ quan trọng giúp theo dõi tình trạng của ổ đĩa cứng, giảm nguy cơ mất dữ liệu và giúp tối ưu hóa hiệu suất của hệ thống. Việc sử dụng Smartctl đơn giản, nhưng mang lại nhiều lợi ích đáng kể cho người dùng và quản trị hệ thống. Đối với bất kỳ ai quan tâm đến việc bảo vệ dữ liệu và đảm bảo sự ổn định của hệ thống, Smartctl là một công cụ không thể thiếu.