Ceph rất nhạy với sự khác biệt về thời gian giữa các máy chủ. Ceph sẽ cho phép một sự sai lệch thời gian tối thiểu là 0,05 giây trước khi bạn nhận được cảnh báo về sự sai lệch thời gian (clock skew). Do đó, quan trọng để tất cả các máy chủ Monitor của bạn đồng bộ hóa với cùng một máy chủ thời gian, ưu tiên là máy chủ thời gian nằm trong local. Điều này sẽ đảm bảo rằng sai lệch thời gian là thấp nhất có thể. Thông báo về sai lệch thời gian có thể xuất hiện khi bạn khởi động lại một trong các máy chủ Monitor, nhưng nó nên biến mất khi máy chủ đó đã được đồng bộ thời gian một cách chính xác.
Nếu bạn dùng terminal để kiểm tra bạn cũng nhận thông báo này.
$ ceph -s
cluster:
id: 37a599e4-599e-4aef-ac0d-ab9e788de377
health: HEALTH_WARN
clock skew detected on mon.pve02
services:
mon: 3 daemons, quorum pve01,pve02,pve03 (age 9h)
mgr: pve01(active, since 9h), standbys: pve02, pve03
osd: 24 osds: 24 up (since 9h), 24 in (since 10h)
data:
pools: 2 pools, 33 pgs
objects: 4.26k objects, 17 GiB
usage: 54 GiB used, 84 TiB / 84 TiB avail
pgs: 33 active+clean
io:
client: 17 KiB/s rd, 39 KiB/s wr, 2 op/s rd, 4 op/s wr
Hoặc bạn dùng Proxmox bạn cũng sẽ thấy nó.
Giải pháp là hãy đồng bộ hóa thời gian cho các node trong cụm bằng cách xây máy chủ NTP trong Local. Hãy tham khảo bài viết https://wiki.hoanghd.com/dong-bo-hoa-thoi-gian-bang-ung-dung-chrony-tren-he-thong-linux/ để biết dựng NTP Server trong Local.
Sau khi triển khai xong thì kết quả đầu ra khi show Chronyc sẽ tương tự như vậy, máy chủ NTP được trỏ trong mạng LAN của bạn để đảm bảo thời gian chênh lệch ít nhất có thể.
Ví dụ của mình NTP Server trong LAN là 192.168.100.111.
root@pve02:~# chronyc tracking
Reference ID : C0A8646F (192.168.100.111)
Stratum : 4
Ref time (UTC) : Thu Nov 02 03:47:41 2023
System time : 0.000038613 seconds fast of NTP time
Last offset : +0.000048002 seconds
RMS offset : 0.001581752 seconds
Frequency : 8.262 ppm fast
Residual freq : +0.168 ppm
Skew : 3.868 ppm
Root delay : 0.107980937 seconds
Root dispersion : 0.000670653 seconds
Update interval : 64.7 seconds
Leap status : Normal
root@pve02:~# chronyc sources
MS Name/IP address Stratum Poll Reach LastRx Last sample
===============================================================================
^* 192.168.100.111 3 6 377 45 -153us[ -105us] +/- 54ms
root@pve02:~# chronyc sourcestats
Name/IP Address NP NR Span Frequency Freq Skew Offset Std Dev
==============================================================================
192.168.100.111 7 5 389 +0.168 3.299 +8332ns 140us
Sau đó bạn có thể khởi động lại Node đang bị lỗi clock skew và bạn có kết quả.