MLPerf Inference v5.1が発表！新しいベンチマークと過去最多の参加者数に注目

MLCommonsがMLPerf Inference v5.1の結果を発表
NvidiaがBlackwell Ultraアーキテクチャで先頭に立つ
AMDが新ハードウェアと作業負荷を披露
HPEがProLiantおよびHPE Crayシステムで強力な結果を報告
新たな推論言語モデルのベンチマークも追加

MLCommonsは、AIモデルの速度をさまざまな作業負荷で測定するためのベンチマークスイート「MLPerf Inference v5.1」の結果を発表した。今回のサイクルでは、27の申請者が記録を更新し、DeepSeek-R1に基づく推論ベンチマーク、Whisper Large v3に基づく音声からテキストへのベンチマーク、Llama 3.1 8B基盤の小型LLMベンチマークが新たに導入された。MLPerfの責任者David Kanterは、結果が90,000件の大台に達したと述べた。

NvidiaはBlackwell Ultraアーキテクチャを用い、推論領域でトップの成績を収めた。新たに発表されたBlackwell Ultraは、DeepSeek-R1推論ベンチマークで45%向上したスループットを記録し、オフラインおよびサーバーシナリオでのトークン処理速度も大幅に改善された。Nvidiaは、Blackwell Ultraの性能向上の背景には、1.5倍のNVFP4 AIコンピュートと2倍のアテンションレイヤー加速があると説明している。

AMDは、新しいInstinct MI355X GPUを用いて、新しい作業負荷を披露した。Llama 2-70Bテストでは、FP4精度で強力な結果を示し、MI325Xに比べ2.7倍のトークン処理能力を達成した。また、AMDはモデル効率技術も強調し、計算要件を下げながら正確性を維持する手法を採用した。

Hewlett Packard Enterprise（HPE）は、ProLiantおよびHPE Crayシステムにおいて14の第一位の結果を報告した。DL380a Gen12は、DLRM推奨作業負荷で最高のランキングを獲得した。HPE Cray XD670は、複数のシナリオで優れた結果を示した。

MLPerf Inference v5.1において初めての推論言語モデルのベンチマークも追加された。これは、新たなモデルタイプの業界標準を示すもので、今後の進展が期待される。