Lỗi khi hủy cụm Ceph

Khi remove cluster thì không nhất thiết phải pull image nếu Cephadm đã có image cần thiết trên máy. Nhưng trong trường hợp này, lệnh cephadm rm-cluster đang cố chạy ceph-volume inventory và Cephadm lại muốn chạy container bằng Podman với image quay.io/ceph/ceph:v19.

Lỗi này xuất phát từ việc Cephadm không thể tải image quay.io/ceph/ceph:v19 từ registry quay.io do lỗi DNS hoặc kết nối mạng.

shell> rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99
Deleting cluster with fsid: 8c548e3c-e307-11ef-82b5-b992f356ab99
This is a development version of cephadm.
For information regarding the latest stable release:
    https://docs.ceph.com/docs/squid/cephadm/install
Non-zero exit code 125 from /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint /usr/sbin/ceph-volume --privileged --group-add=disk --init -e CONTAINER_IMAGE=quay.io/ceph/ceph:v19 -e NODE_NAME=SNS-STOR-VSTOR-HAN01-NODE-GOL-050 -e CEPH_VOLUME_SKIP_RESTORECON=yes -e CEPH_VOLUME_DEBUG=1 -v /dev:/dev -v /run/udev:/run/udev -v /sys:/sys -v /run/lvm:/run/lvm -v /run/lock/lvm:/run/lock/lvm -v /etc/hosts:/etc/hosts:ro quay.io/ceph/ceph:v19 inventory --format json
/usr/bin/podman: stderr time="2025-03-17T10:50:13+07:00" level=warning msg="Error validating CNI config file /etc/cni/net.d/kafka-docker_default.conflist: [plugin firewall does not support config version \"1.0.0\"]"
/usr/bin/podman: stderr Trying to pull quay.io/ceph/ceph:v19...
/usr/bin/podman: stderr Error: initializing source docker://quay.io/ceph/ceph:v19: pinging container registry quay.io: Get "https://quay.io/v2/": dial tcp: lookup quay.io: Temporary failure in name resolution
Traceback (most recent call last):
  File "/usr/lib/python3.10/runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "/usr/lib/python3.10/runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "/usr/local/sbin/cephadm/__main__.py", line 5579, in <module>
  File "/usr/local/sbin/cephadm/__main__.py", line 5567, in main
  File "/usr/local/sbin/cephadm/__main__.py", line 4325, in command_rm_cluster
  File "/usr/local/sbin/cephadm/__main__.py", line 4363, in _rm_cluster
  File "/usr/local/sbin/cephadm/__main__.py", line 437, in _infer_image
  File "/usr/local/sbin/cephadm/__main__.py", line 4282, in _zap_osds
  File "/usr/local/sbin/cephadm/cephadmlib/call_wrappers.py", line 310, in call_throws
RuntimeError: Failed command: /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint /usr/sbin/ceph-volume --privileged --group-add=disk --init -e CONTAINER_IMAGE=quay.io/ceph/ceph:v19 -e NODE_NAME=SNS-STOR-VSTOR-HAN01-NODE-GOL-050 -e CEPH_VOLUME_SKIP_RESTORECON=yes -e CEPH_VOLUME_DEBUG=1 -v /dev:/dev -v /run/udev:/run/udev -v /sys:/sys -v /run/lvm:/run/lvm -v /run/lock/lvm:/run/lock/lvm -v /etc/hosts:/etc/hosts:ro quay.io/ceph/ceph:v19 inventory --format json

🔹 Phân tích lỗi

Podman cảnh báo về lỗi CNI plugin

Trying to pull quay.io/ceph/ceph:v19...
Error: initializing source docker://quay.io/ceph/ceph:v19: pinging container registry quay.io: Get "https://quay.io/v2/": dial tcp: lookup quay.io: Temporary failure in name resolution

Lệnh Podman chạy thất bại

/usr/bin/podman run ... quay.io/ceph/ceph:v19 inventory --format json

Vì không tải được image quay.io/ceph/ceph:v19, Podman thất bại khi chạy container để thực hiện ceph-volume inventory.

🔹 Cách khắc phục

Kiểm tra kết nối mạng và DNS.

Trên node đang chạy lệnh, kiểm tra kết nối đến quay.io:

ping -c 4 quay.io
nslookup quay.io

Nếu không có phản hồi, có thể thử:

echo "nameserver 8.8.8.8" > /etc/resolv.conf
systemctl restart systemd-resolved

Kiểm tra firewall hoặc proxy

Nếu hệ thống sử dụng firewall hoặc proxy, hãy kiểm tra:

iptables -L -v -n
firewalld-cmd --list-all

Nếu có proxy, thêm cấu hình vào môi trường:

export http_proxy="http://proxy_ip:proxy_port"
export https_proxy="http://proxy_ip:proxy_port"

Kiểm tra Podman

Nếu Podman gặp lỗi, thử chạy lệnh sau:

podman pull quay.io/ceph/ceph:v19

Dùng image local nếu có

Nếu không thể kết nối internet, kiểm tra xem image đã có sẵn trong máy:

shell> podman images | grep ceph
172.16.11.49:5000/ceph/ceph           v19.2.1      f2efb0401a30  6 weeks ago  1.32 GB
172.16.11.49:5000/ceph/node-exporter  v1.5.0       0da6a335fe13  2 years ago  23.8 MB

Nếu có, thử chạy lệnh với image local:

cephadm --image quay.io/ceph/ceph:v19 rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99

Hoặc ví dụ truyền vào bằng ID của Image.

shell> cephadm --image f2efb0401a30 rm-cluster --force --zap-osds --fsid 8c548e3c-e307-11ef-82b5-b992f356ab99
Deleting cluster with fsid: 8c548e3c-e307-11ef-82b5-b992f356ab99
Zapping /dev/sdb...
Zapping /dev/sdc...
Zapping /dev/sdd...
Zapping /dev/sde...
Zapping /dev/sdf...
Zapping /dev/sdg...
Zapping /dev/sdh...
Zapping /dev/sdi...
Zapping /dev/sdj...
Zapping /dev/sdk...
Zapping /dev/sdl...
Zapping /dev/sdm...
Zapping /dev/sdn...
Zapping /dev/sdo...
Zapping /dev/sdp...
Zapping /dev/sdq...
Zapping /dev/sdr...
Zapping /dev/sds...
Zapping /dev/sdt...
Zapping /dev/sdu...
Zapping /dev/sdv...
Zapping /dev/sdx...
Zapping /dev/sdy...

Verify lại, bạn thấy Cluster đã được xóa.

shell> ceph -s
Error initializing cluster client: ObjectNotFound('RADOS object not found (error calling conf_read_file)')

Bài viết gần đây

spot_img

Related Stories

Leave A Reply

Please enter your comment!
Please enter your name here

Đăng ký nhận thông tin bài viết qua email