Ascendシリーズの位置づけと開発背景
Huaweiが独自に開発する「Ascend」シリーズは、AI処理に特化したNPU(Neural Processing Unit)です。米国の輸出規制により先端GPUの調達が難しくなった中国において、AI研究・商用利用の基盤を自国技術でまかなうために投入されました。従来のGPUと異なり、AscendはAI計算を第一目的とした設計で、行列演算やディープラーニングワークロードを効率的に処理することに特化しています。そのため、単体チップのピーク性能だけでなく、大規模並列環境でのスケールアウトを前提としたアーキテクチャが特徴です。
AI向けプロセッサとしての特徴
Ascend NPUは大量の行列演算ユニットを備え、推論や学習処理に最適化されています。特にHBM(高帯域幅メモリ)を搭載することで、大規模モデルを処理する際に発生するメモリ帯域ボトルネックを軽減しています。さらに、主流のAIフレームワークとの親和性を確保するため、ソフトウェアエコシステム「MindSpore」を中心に開発が進められており、TensorFlowやPyTorchとも互換性を持たせています。これにより、研究者や開発者は既存のワークフローを大きく変えずにAscendを利用できる点が強みとなっています。
CloudMatrix 384 の構成要素
Huaweiの「CloudMatrix 384」は、こうしたAscendプロセッサを核にした大規模AI学習向けスーパー・ノードです。名前の通り、Ascend 910C NPUを384基搭載し、さらにKunpeng CPUを192基組み合わせる構成になっています。Kunpeng CPUはARMベースで汎用計算や制御処理を担い、Ascend NPUの演算能力を引き出す役割を果たしています。
これらを支えるのが、Huawei独自のUB(Unified Bus)ネットワークです。UBはClos/Fat-tree型の階層構造を採用し、384基のNPUとCPUをほぼ均一なレイテンシで接続します。論文や発表によると、ノード間アクセスの帯域劣化は3%未満、追加レイテンシも1µs以下とされています。これにより、ソフトウェア的にはすべてのノードが「ピア」として見え、分散処理の複雑さを隠蔽することが可能になります。
さらに、CloudMatrixはストレージやネットワークとの統合も考慮されており、RoCE(RDMA over Converged Ethernet)を使った400Gbps級の高速通信をサポートします。これにより、スーパー・ノード間のスケールアウトにも対応し、数千ノード規模の大規模クラスタ構築が可能です。
スーパー・ノード設計の狙い
NVIDIAのDGXシリーズがGPU同士をNVLinkで直結し、1つの巨大な「スーパーGPU」を目指しているのに対し、HuaweiのCloudMatrixはCPUとNPUを混在させる設計を選択しました。これは、単体チップ性能の微細化競争で不利な状況を補うために、スケールアウト性能で勝負する戦略といえます。
また、UBネットワークによってNUMA的な非対称性を隠し、論理的には統合メモリモデルとして見せる設計は、ソフトウェア開発者にとっての負担軽減につながります。ただし、実運用ではアクセスパターンによって性能差が出る可能性もあり、NUMA最適化や輻輳制御といった課題が残ります。
それでも、この設計は大規模LLM学習やMoE(Mixture of Experts)のようにスパースな通信が発生するワークロードに適しており、中国国内のAI需要に対応するための現実的な解となっています。
NVSwitch・UB・InfiniBand の比較表
| 特徴 | NVIDIA NVSwitch | Huawei UB (Unified Bus) | InfiniBand (IB) |
|---|---|---|---|
| 主目的 | GPU同士を直結し共有メモリ空間化 | CPU+NPUを対等に接続 | 汎用HPCクラスタ通信 |
| スコープ | 8〜72 GPU/筐体内 | 384 NPU + 192 CPU/スーパー・ノード | 数千〜数万ノード |
| 接続方式 | 専用クロスバス/NVLink | Clos/Fat-tree型UBファブリック | Clos/Fat-treeファブリック |
| レイテンシ | ~0.3 µs 未満 | <1 µs (追加差分) | 0.5〜1 µs |
| メモリモデル | 物理的共有メモリ | 論理的統合メモリ (NUMA隠蔽) | リモートアクセス (RDMA) |
| スケーラビリティ | 限定的(筐体内) | スーパー・ノード単位で拡張可 | HPCで実績豊富 |
| 強み | 超低遅延・安定した性能 | CPU/NPU混在、MoEに強い | 大規模クラスタで成熟 |
| 弱み | 規模制約、GPU依存 | 実効性能はパターン依存 | TCP/IP併用時は遅延増 |
コメントを残す