AscendプロセッサとHuawei CloudMatrix 384の全体像

Ascendシリーズの位置づけと開発背景

Huaweiが独自に開発する「Ascend」シリーズは、AI処理に特化したNPU（Neural Processing Unit）です。米国の輸出規制により先端GPUの調達が難しくなった中国において、AI研究・商用利用の基盤を自国技術でまかなうために投入されました。従来のGPUと異なり、AscendはAI計算を第一目的とした設計で、行列演算やディープラーニングワークロードを効率的に処理することに特化しています。そのため、単体チップのピーク性能だけでなく、大規模並列環境でのスケールアウトを前提としたアーキテクチャが特徴です。

AI向けプロセッサとしての特徴

Ascend NPUは大量の行列演算ユニットを備え、推論や学習処理に最適化されています。特にHBM（高帯域幅メモリ）を搭載することで、大規模モデルを処理する際に発生するメモリ帯域ボトルネックを軽減しています。さらに、主流のAIフレームワークとの親和性を確保するため、ソフトウェアエコシステム「MindSpore」を中心に開発が進められており、TensorFlowやPyTorchとも互換性を持たせています。これにより、研究者や開発者は既存のワークフローを大きく変えずにAscendを利用できる点が強みとなっています。

CloudMatrix 384 の構成要素

Huaweiの「CloudMatrix 384」は、こうしたAscendプロセッサを核にした大規模AI学習向けスーパー・ノードです。名前の通り、Ascend 910C NPUを384基搭載し、さらにKunpeng CPUを192基組み合わせる構成になっています。Kunpeng CPUはARMベースで汎用計算や制御処理を担い、Ascend NPUの演算能力を引き出す役割を果たしています。

これらを支えるのが、Huawei独自のUB（Unified Bus）ネットワークです。UBはClos/Fat-tree型の階層構造を採用し、384基のNPUとCPUをほぼ均一なレイテンシで接続します。論文や発表によると、ノード間アクセスの帯域劣化は3％未満、追加レイテンシも1µs以下とされています。これにより、ソフトウェア的にはすべてのノードが「ピア」として見え、分散処理の複雑さを隠蔽することが可能になります。

さらに、CloudMatrixはストレージやネットワークとの統合も考慮されており、RoCE（RDMA over Converged Ethernet）を使った400Gbps級の高速通信をサポートします。これにより、スーパー・ノード間のスケールアウトにも対応し、数千ノード規模の大規模クラスタ構築が可能です。

スーパー・ノード設計の狙い

NVIDIAのDGXシリーズがGPU同士をNVLinkで直結し、1つの巨大な「スーパーGPU」を目指しているのに対し、HuaweiのCloudMatrixはCPUとNPUを混在させる設計を選択しました。これは、単体チップ性能の微細化競争で不利な状況を補うために、スケールアウト性能で勝負する戦略といえます。

また、UBネットワークによってNUMA的な非対称性を隠し、論理的には統合メモリモデルとして見せる設計は、ソフトウェア開発者にとっての負担軽減につながります。ただし、実運用ではアクセスパターンによって性能差が出る可能性もあり、NUMA最適化や輻輳制御といった課題が残ります。

それでも、この設計は大規模LLM学習やMoE（Mixture of Experts）のようにスパースな通信が発生するワークロードに適しており、中国国内のAI需要に対応するための現実的な解となっています。

NVSwitch・UB・InfiniBand の比較表

特徴	NVIDIA NVSwitch	Huawei UB (Unified Bus)	InfiniBand (IB)
主目的	GPU同士を直結し共有メモリ空間化	CPU+NPUを対等に接続	汎用HPCクラスタ通信
スコープ	8〜72 GPU/筐体内	384 NPU + 192 CPU/スーパー・ノード	数千〜数万ノード
接続方式	専用クロスバス/NVLink	Clos/Fat-tree型UBファブリック	Clos/Fat-treeファブリック
レイテンシ	~0.3 µs 未満	<1 µs (追加差分)	0.5〜1 µs
メモリモデル	物理的共有メモリ	論理的統合メモリ (NUMA隠蔽)	リモートアクセス (RDMA)
スケーラビリティ	限定的（筐体内）	スーパー・ノード単位で拡張可	HPCで実績豊富
強み	超低遅延・安定した性能	CPU/NPU混在、MoEに強い	大規模クラスタで成熟
弱み	規模制約、GPU依存	実効性能はパターン依存	TCP/IP併用時は遅延増

AscendプロセッサとHuawei CloudMatrix 384の全体像

Ascendシリーズの位置づけと開発背景

AI向けプロセッサとしての特徴

CloudMatrix 384 の構成要素

スーパー・ノード設計の狙い

NVSwitch・UB・InfiniBand の比較表

コメント

コメントを残すコメントをキャンセル

投稿をさらに読み込む

「InferenceMAX」から読み解くAIチップ競争の地殻変動

ベクトルデータベース　Googleの「生成 AI リーダー」コース

「AI専用セキュリティソフトは必要か？」現実的な視点で考える