Friday, March 21, 2025

Lỗi khi hủy cụm Ceph

-

Khi remove cluster thì không nhất thiết phải pull image nếu Cephadm đã có image cần thiết trên máy. Nhưng trong trường hợp này, lệnh cephadm rm-cluster đang cố chạy ceph-volume inventory và Cephadm lại muốn chạy container bằng Podman với image quay.io/ceph/ceph:v19.

Lỗi này xuất phát từ việc Cephadm không thể tải image quay.io/ceph/ceph:v19 từ registry quay.io do lỗi DNS hoặc kết nối mạng.

shell> rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99
Deleting cluster with fsid: 8c548e3c-e307-11ef-82b5-b992f356ab99
This is a development version of cephadm.
For information regarding the latest stable release:
    https://docs.ceph.com/docs/squid/cephadm/install
Non-zero exit code 125 from /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint /usr/sbin/ceph-volume --privileged --group-add=disk --init -e CONTAINER_IMAGE=quay.io/ceph/ceph:v19 -e NODE_NAME=SNS-STOR-VSTOR-HAN01-NODE-GOL-050 -e CEPH_VOLUME_SKIP_RESTORECON=yes -e CEPH_VOLUME_DEBUG=1 -v /dev:/dev -v /run/udev:/run/udev -v /sys:/sys -v /run/lvm:/run/lvm -v /run/lock/lvm:/run/lock/lvm -v /etc/hosts:/etc/hosts:ro quay.io/ceph/ceph:v19 inventory --format json
/usr/bin/podman: stderr time="2025-03-17T10:50:13+07:00" level=warning msg="Error validating CNI config file /etc/cni/net.d/kafka-docker_default.conflist: [plugin firewall does not support config version \"1.0.0\"]"
/usr/bin/podman: stderr Trying to pull quay.io/ceph/ceph:v19...
/usr/bin/podman: stderr Error: initializing source docker://quay.io/ceph/ceph:v19: pinging container registry quay.io: Get "https://quay.io/v2/": dial tcp: lookup quay.io: Temporary failure in name resolution
Traceback (most recent call last):
  File "/usr/lib/python3.10/runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "/usr/lib/python3.10/runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "/usr/local/sbin/cephadm/__main__.py", line 5579, in <module>
  File "/usr/local/sbin/cephadm/__main__.py", line 5567, in main
  File "/usr/local/sbin/cephadm/__main__.py", line 4325, in command_rm_cluster
  File "/usr/local/sbin/cephadm/__main__.py", line 4363, in _rm_cluster
  File "/usr/local/sbin/cephadm/__main__.py", line 437, in _infer_image
  File "/usr/local/sbin/cephadm/__main__.py", line 4282, in _zap_osds
  File "/usr/local/sbin/cephadm/cephadmlib/call_wrappers.py", line 310, in call_throws
RuntimeError: Failed command: /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint /usr/sbin/ceph-volume --privileged --group-add=disk --init -e CONTAINER_IMAGE=quay.io/ceph/ceph:v19 -e NODE_NAME=SNS-STOR-VSTOR-HAN01-NODE-GOL-050 -e CEPH_VOLUME_SKIP_RESTORECON=yes -e CEPH_VOLUME_DEBUG=1 -v /dev:/dev -v /run/udev:/run/udev -v /sys:/sys -v /run/lvm:/run/lvm -v /run/lock/lvm:/run/lock/lvm -v /etc/hosts:/etc/hosts:ro quay.io/ceph/ceph:v19 inventory --format json

🔹 Phân tích lỗi

Podman cảnh báo về lỗi CNI plugin

Trying to pull quay.io/ceph/ceph:v19...
Error: initializing source docker://quay.io/ceph/ceph:v19: pinging container registry quay.io: Get "https://quay.io/v2/": dial tcp: lookup quay.io: Temporary failure in name resolution

Lệnh Podman chạy thất bại

/usr/bin/podman run ... quay.io/ceph/ceph:v19 inventory --format json

Vì không tải được image quay.io/ceph/ceph:v19, Podman thất bại khi chạy container để thực hiện ceph-volume inventory.

🔹 Cách khắc phục

Kiểm tra kết nối mạng và DNS.

Trên node đang chạy lệnh, kiểm tra kết nối đến quay.io:

ping -c 4 quay.io
nslookup quay.io

Nếu không có phản hồi, có thể thử:

echo "nameserver 8.8.8.8" > /etc/resolv.conf
systemctl restart systemd-resolved

Kiểm tra firewall hoặc proxy

Nếu hệ thống sử dụng firewall hoặc proxy, hãy kiểm tra:

iptables -L -v -n
firewalld-cmd --list-all

Nếu có proxy, thêm cấu hình vào môi trường:

export http_proxy="http://proxy_ip:proxy_port"
export https_proxy="http://proxy_ip:proxy_port"

Kiểm tra Podman

Nếu Podman gặp lỗi, thử chạy lệnh sau:

podman pull quay.io/ceph/ceph:v19

Dùng image local nếu có

Nếu không thể kết nối internet, kiểm tra xem image đã có sẵn trong máy:

shell> podman images | grep ceph
172.16.11.49:5000/ceph/ceph           v19.2.1      f2efb0401a30  6 weeks ago  1.32 GB
172.16.11.49:5000/ceph/node-exporter  v1.5.0       0da6a335fe13  2 years ago  23.8 MB

Nếu có, thử chạy lệnh với image local:

cephadm --image quay.io/ceph/ceph:v19 rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99

Hoặc ví dụ truyền vào bằng ID của Image.

shell> cephadm --image f2efb0401a30 rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99
Deleting cluster with fsid: 8c548e3c-e307-11ef-82b5-b992f356ab99
Zapping /dev/sdb...
Zapping /dev/sdc...
Zapping /dev/sdd...
Zapping /dev/sde...
Zapping /dev/sdf...
Zapping /dev/sdg...
Zapping /dev/sdh...
Zapping /dev/sdi...
Zapping /dev/sdj...
Zapping /dev/sdk...
Zapping /dev/sdl...
Zapping /dev/sdm...
Zapping /dev/sdn...
Zapping /dev/sdo...
Zapping /dev/sdp...
Zapping /dev/sdq...
Zapping /dev/sdr...
Zapping /dev/sds...
Zapping /dev/sdt...
Zapping /dev/sdu...
Zapping /dev/sdv...
Zapping /dev/sdx...
Zapping /dev/sdy...

Verify lại, bạn thấy Cluster đã được xóa.

shell> ceph -s
Error initializing cluster client: ObjectNotFound('RADOS object not found (error calling conf_read_file)')

LEAVE A REPLY

Please enter your comment!
Please enter your name here

4,956FansLike
256FollowersFollow
223SubscribersSubscribe
spot_img

Related Stories