braindump #568
未完了Ceph の運用を考える
0%
説明
いいかげんサーバクラスタ用の分散ストレージがほしいが、ヘビーに依存して壊れると面倒なので、運用コストが見合うか感覚をつかみたい。
ネットワークについては 機能 #867: ネットワーク構成再考 (2025-11) で考える。
NO nop_thread さんが約1年前に更新
まずネットワークを飽和させないために専用のネットワークがあった方が良いらしい。
これは各サーバに SFP+ ×2 の NIC を積んでいるので問題ない。
現状だとサーバとスイッチ間を LACP で冗長化しているのはケーブルが抜けたり破損したときの備えでしかなく、帯域自体は 10Gbps で全然問題ない。
NO nop_thread さんが約1年前に更新
- 2.10. Red Hat Ceph Storage クラスターの電源をオフにして再起動 | Red Hat Product Documentation
- SES 7.1 | Deploying and Administering SUSE Enterprise Storage with Rook | Ceph cluster administration
微妙に OSD flags まわりの記述に差異があるが、とにかくシャットダウンに一手間かかりそうなのが面倒。
あと「クラスタを利用しているクライアントを全部止めろ」が最初に来ているのも地味に嫌かもしれない。
PVE 上のストレージを PVE 上のコンテナから使うのなら良いが、クラスタ外とかにクライアントを置くのは危険かもしれない。
NO nop_thread さんが約1年前に更新 · 編集済み
どうにも挙動が怪しい?
詳しく読んでいないが、 2024-09 の話なのでかなり心配。
ドキュメントは 3839 – Documentation: Hyper-converged Ceph cluster shutdown and cold start によれば 2024-08-22 リリースの PVE 8.2.2 で更新されているが、実装についてはこれといって Ceph cluster のシャットダウン専用の何かは入っていない様子。
NO nop_thread さんが11ヶ月前に更新
- 関連している 機能 #457: ストレージを食いまくるサービス用に、独立した Proxmox VE クラスタを用意するべきか検討 を追加
NO nop_thread さんが11ヶ月前に更新
- 関連している 機能 #426: NAS 全般のハードウェアと運用を再考する (2024-07) を追加
NO nop_thread さんが11日前に更新
Deploy Hyper-Converged Ceph Cluster - Proxmox VE
理屈はわかったし納得もしたが、それはそれとして自動化されていないのは面倒。
「ceph のクライアントがいなくなった (典型的には VM/CT を全て停止した) ことを確認してから次の操作」とか、そもそも VM/CT, ceph, PVE node のシャットダウンが全部個別の操作になっているから3段階必要なところとか。
たぶん楽をするなら PVE API によるスクリプト操作を前提にやる必要があるのだろう。
ミスを減らす観点でもその方が良いので、覚悟を決めるべきかもしれない。
NO nop_thread さんが11日前に更新
- 前回確認日 を 2025/11/08 にセット
NO nop_thread さんが11日前に更新
- 関連している 機能 #867: ネットワーク構成再考 (2025-11) を追加
NO nop_thread さんが11日前に更新
- 前回確認日 を 2025/11/08 から 2025/11/09 に変更
先に 機能 #867: ネットワーク構成再考 (2025-11) をどうにかした方が良さそう。
NO nop_thread さんが11日前に更新
- 説明 を更新 (差分)