Editing Openai/69256df6-133c-8005-ae25-fcf7c8af0f22 (section)

==== 最近の論文・技術資料まとめ（2023–2025） ====

以下、XLA（あるいはそれに近い ML コンパイラ） による通信 (collective) 最適化・スケジューリングに関連する最近の研究・設計です。

| タイトル                                                                                              | 内容／ポイント                                                                                                                                                                                                           |
| ------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------ |
| Optimizing Compute and Communication Scheduling with XLA                                          | Google の公式オープンソース・ブログで、XLA が SPMD 分割 + 集団通信 (collective ops) + HLO 最適化 を組み合わせて、複数 GPU 上での並列トレーニングを最適化する仕組みの紹介あり。具体的に「通信と計算の重ね合わせ (overlap) スケジューリング (latency‐hiding scheduler)」も言及されている。 
Google Open Source Blog |
| GSPMD: General and Scalable Parallelization for ML Computation Graphs (Yuanzhong Xu et al., 2021) | XLA の SPMD パーティショナー (SPMD partitioner) の基礎設計を示す。シャーディング注釈 (sharding annotation) を使って計算グラフ全体を分割し、さらに collective 通信 (AllReduce など) を HLO レベルで導入。また、SPMD によって通信と計算を同時並列化 (overlap) するためのスケジュール設計をサポート。  
arXiv
+1    |
| PartIR: Composing SPMD Partitioning Strategies (2024)                                             | PartIR は「インクリメンタルなシャーディング (partitioning) 戦略」を定義・適用できる設計を持つ。ハードウェア・ランタイムに依存しない抽象度で、シャーディング戦略を合成 (compose) でき、通信を伴う分割 (resharding) の最適化も考慮。 
arXiv
+1                                                               |
| Concerto: Automatic Communication Optimization and Scheduling (2025)                              | 最近の論文 (ACM) で、分散ディープラーニング向けに通信最適化 + スケジューリングを自動化するコンパイラ・フレームワーク。通信タスク (collectives) を解析して、最適なタイミングで実行し、重ね合わせ (overlap) を実現しようとするアプローチ。  
ACM Digital Library                                                      |
| JaxPP: Scaling Deep Learning Training with MPMD Pipeline Parallelism (2024)                       | JAX + XLA を使って、MPMD（マルチプログラム／マルチデータ） + パイプライン並列性を実現。スケジューラが通信 (send/recv) を推論 (infer) し、タスクグラフとして最適な実行を行う。XLA によるタスクの分割、通信挿入 (collectives)、バッファ管理 (デアロケーション) などを含む。  
OpenReview                                  |
| Shardy (OpenXLA)                                                                                  | OpenXLA プロジェクトの一部。MLIR ベースのテンソル分割システムで、GSPMD の伝播 (propagation) と PartIR の戦術 (tactics) を統合し、ユーザが制御しやすく、かつ通信を無駄なく挿入／最適化できるように設計されている。  
OpenXLA Project                                                             |
| veScale: Consistent and Efficient Tensor Programming with Eager‑Mode SPMD (2025)                  | SPMD パラダイムを イージーモード (eager execution) に持ち込み、高スケール通信効率を重視。特に通信オーバーヘッド低減と一貫性 (single-device 一貫性) を両立させようとする。  
arXiv                                                                                                |