Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

===== 2.4 GPUクラスタ運用 =====
* 512枚の NVIDIA H200（64ノード）
* ネットワーク：400Gbps NDR InfiniBand（ConnectX-7）、AllReduce の tail latency を監視し、160GB/s 以上を目標
* 構成管理：Ansible による IaC
* ジョブ管理：Slurm + cgroup v2（ジョブ終了時に cgroup ごとプロセス凍結・破棄）
* ストレージ：Lustre（高スループット）＋NVMe-NFS（メタデータ多め用途）
* 監視：DCGM → Prometheus、Xid エラーや熱スロットリング検知でノードを事前に drain

と、かなり “HPC すぎる” レベルまでチューニングされています。INTELLECT_3_Technical_Report