DGX Sparkとは?ハードウェアスペックと公称値から見るローカルLLM運用の可能性

生成AIやLLMの活用が進むなかで、クラウド上のAPIを利用するだけでなく、自社環境や手元のマシンでLLMを動かしたいというニーズが高まっています。特に、機密情報を扱う業務では外部サービスにデータを送らずにLLMを運用できる環境が重要になります。
そのようなローカルAI開発基盤の選択肢として注目されているのが、NVIDIAの「DGX Spark」です。DGX Sparkは、デスクトップサイズながら大規模AIモデルの推論やfine-tuning、AIアプリケーションのプロトタイピングを手元で行うことを想定したAI開発基盤です。
ただし、スペック表の数値だけではDGX Sparkで実際にどの規模のLLMを動かせるのか、またどの程度快適に使えるのかは分かりません。メモリ容量やAI性能、対応モデルサイズといった情報を、LLM運用の観点から読み解く必要があります。
本記事では、DGX Sparkのハードウェアスペックと公称スペックを整理しながら、1台構成でできること、2台接続によって変わること、そしてLLM運用時に確認すべき指標について解説します。
💡DGX Sparkを活用して、セキュアなローカルLLM環境を構築したい企業様へ
Athena Technologiesでは、DGX Sparkを活用したローカルLLM環境の導入支援を行っています。
企業ごとのセキュリティ要件や利用目的に合わせて、外部にデータを送らずにLLMを活用できる環境づくりを行います。チャット画面や社内向けAIアプリからLLMを使えるようにする仕組みづくりに加え、LLMを安定して動かすための環境整備や、より大きなモデルを扱うための構成検討まで、実際の業務利用を見据えて対応します。
機密情報を外部サービスに送信せず、自社環境で安全に生成AIを活用したい企業様は、ぜひAthena TechnologiesのDGX Spark導入支援をご検討ください。
⇨Athena TechnologiesのDGX Spark導入支援について詳しくはこちら
この記事でわかること
- DGX Sparkの概要・一般的なPCやサーバーとの違い
- DGX Sparkのハードウェアスペック
- 公称スペックから見た対応モデルサイズや必要メモリの考え方
- 1台構成でできること
- 2台構成にした場合に変わること・クラスタ化の目的
DGX Sparkとは?
DGX Sparkは、NVIDIAが提供するデスクトップサイズのAI開発基盤です。大規模なデータセンターやクラウド環境だけでなく、手元のローカル環境でAIモデルの開発や検証を行うことを目的としています。
近年、LLMを業務に活用する場面が増える一方で、クラウドAPIにデータを送ることへの不安や、LLMを自社環境で検証したいというニーズも高まっています。DGX Sparkは、こうした用途に対してローカル環境でLLMの推論やfine-tuning*、AIアプリケーションのプロトタイピングを行うための選択肢となります。
*fine-tuning:既存の学習済みAIモデルを特定の用途やデータに合わせて追加調整すること。モデルを一から作り直すのではなく、すでにあるモデルの振る舞いを目的に合わせて近づける作業を指す。
一般的なPCやサーバーとの違い
一般的なPCでも、小規模なLLMを動かしたり、生成AIアプリを開発したりすることは可能です。しかし、より大きなモデルを扱う場合にはGPU性能だけでなく、モデルを保持するためのメモリ容量や推論を効率よく行うためのソフトウェア環境が重要になります。
高性能なGPUを搭載したPCであっても、VRAM容量やAI向けの最適化が不足していると大規模モデルの運用には制約が出ます。また、一般的なPCはWeb閲覧、オフィス作業、開発、画像編集、ゲームなど幅広い用途を想定した汎用的なマシンであり、LLM推論やfine-tuningに特化して設計されているわけではありません。これに対してDGX Sparkは、LLMの推論やAIモデルの検証をローカル環境で行うことを前提に、GPU、統合メモリ、ストレージ、AI向けソフトウェア環境をまとめた小型AI開発基盤として位置づけられます。
ハードウェアスペック
DGX Sparkの特徴を理解するうえで、まず確認したいのがハードウェア構成です。LLMをローカルで動かす場合、単にGPU性能が高いだけでなく、モデルを保持するためのメモリ容量、モデルファイルを保存するストレージ、複数台接続を行うためのネットワーク性能も重要になります。
NVIDIAが公開しているDGX Sparkの主な仕様
| 項目 | 仕様 |
|---|---|
| アーキテクチャ | NVIDIA Grace Blackwell |
| GPU | 20コア Arm、10 Cortex-X925 + 10 Cortex-A725 Arm |
| CUDAコア | Blackwell 世代 |
| Tensorコア | 第5世代 |
| RTコア | 第4世代 |
| Tensorパフォーマンス | 最大 1 PFLOP FP4 |
| システムメモリ | 128 GB LPDDR5x、コヒーレント統合システムメモリ |
| メモリインターフェイス | 256ビット |
| メモリ帯域幅 | 273GB/秒 |
| ストレージ | 4TB NVMe M.2、自己暗号化付き |
| USB | 4× USB Type-C |
| イーサネット | 1× RJ-45 コネクター 10GbE |
| NIC | ConnectX-7 NIC @ 200Gbps |
| Wi-Fi | Wi-Fi 7 |
| Bluetooth | Bluetooth 5.4 |
| オーディオ出力 | HDMI マルチチャンネル オーディオ出力 |
| 電源装置 | 240ワット |
| GB10 TDP | 140W |
| ディスプレイコネクタ | 1× HDMI 2.1a、最大 3x USB-C 経由のDisplayPort(DP Alt モード) |
| NVENC / NVDEC | 1× / 1× |
| OS | NVIDIA DGX OS |
| システムサイズ | 長さ150mm x 幅150mm x 高さ50.5mm |
| システム重量 | 1.2kg |
出典:NVIDIA DGX Spark 公式製品ページ
https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/
仕様表の中でも、LLM運用の観点で特に重要なのが「128GB LPDDR5x コヒーレント統合システムメモリ」です。LLMを動かすには、モデルの重みや推論時に使われるKVキャッシュ**をメモリ上に保持する必要があります。そのため、メモリ容量は「どの規模のモデルを扱えるか」に大きく関係します。
一般的なPCでは、CPU用メモリとGPU用メモリが分かれていることが多く、大規模モデルを扱う際にはGPUメモリ容量が制約になりやすくなります。一方、DGX SparkではCPUとGPUが統合された構成の中で大容量の統合メモリを利用できるため、ローカル環境でより大きなAIモデルを扱うための土台になります。
また、仕様表にある「最大1 PFLOP FP4」というTensorパフォーマンスは、AI演算をどれだけ高速に処理できるかを示す指標です。PFLOPは、1秒あたり1000兆回規模の演算性能を表す単位です。FPはFloating Pointの略で、FP4は4ビットの浮動小数点形式を意味します。つまり「最大1 PFLOP FP4」とは、FP4形式の演算において、特定条件下で理論上1秒あたり1000兆回規模の演算性能を発揮できることを示しています。ただし、これは低精度演算における理論ピーク性能であり、実際のLLM推論速度そのものを直接表すものではありません。
ストレージやネットワークも重要です。DGX Sparkは4TB NVMe M.2ストレージを備えており、大規模モデルのファイルや開発環境をローカルに保存できます。また、ConnectX-7 NICを備えているため、2台接続によるクラスタ構成にもつながります。単体でのLLM推論だけでなく、複数台を接続してより大きなモデルを扱う構成を検討する際にも、ネットワーク性能は重要な要素になります。
ただし、ハードウェアスペックだけを見ても実際にLLMを使ったときの快適さまでは分かりません。たとえば、同じDGX Spark上でモデルを動かす場合でも、モデルの大きさや入力文の長さによって応答速度は変わります。そのため、実運用ではスペック表の数値だけでなく、1秒あたりに生成できるトークン数や、最初の応答が返ってくるまでの時間なども確認する必要があります。
**KVキャッシュ:LLMが過去に処理した入力や生成済みの文章の計算結果を保存し、次の文章生成時に再利用するためのメモリ領域。入力文や出力文が長くなるほど、必要なメモリ量も増える。
公称スペック
ハードウェアスペックに続いて、NVIDIAがDGX Sparkについて公表している公称スペックを整理します。公称スペックとは、メーカーが公式に示している性能や対応モデルサイズの目安を指します。
DGX Sparkでは、単体構成で最大200Bパラメータ級モデル、2台構成では最大405Bパラメータ級モデルに対応するとされています。また、fine-tuningについては最大70Bパラメータ級モデルに対応するとされています。なお、Bはbillion、つまり10億を意味します。たとえば200Bパラメータ級モデルであれば、おおよそ2000億個のパラメータを持つモデルを指します。
| 項目 | 公称値 |
|---|---|
| AI性能 | 最大1 PFLOP FP4 |
| DGX Spark単体構成 | 最大200Bパラメータ級モデルに対応 |
| DGX Spark2台構成 | 最大405Bパラメータ級モデルに対応 |
| fine-tuning | 最大70Bパラメータ級モデルに対応 |
出典:NVIDIA DGX Spark 公式製品ページ https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/
ここで注意したいのは、これらの値は「その規模のモデルを扱える可能性を示す公称値」であり、すべての条件で快適に動作することを保証するものではないという点です。大規模モデルを扱う場合は、FP4***などの低いビット数でモデルを扱う前提で理解する必要があります。モデルの重みをメモリ上に保持する際、必要な容量はパラメータ数だけでなく、1つのパラメータを何ビットで表すかによって変わります。FP16よりもFP4のような低いビット数の形式を使うと、同じ規模のモデルでもメモリ使用量を抑えやすくなります。そのため、DGX Sparkの公称値を見る際には、対応モデルサイズだけでなく、どの精度でモデルを扱う前提なのかも確認する必要があります。
次に、モデルサイズと必要メモリの関係を確認します。
| モデル規模 | FP16/BF16 | FP8/INT8相当 | FP4/INT4相当 |
|---|---|---|---|
| 70B | 約140GB | 約70GB | 約35GB |
| 200B | 約400GB | 約200GB | 約100GB |
| 405B | 約810GB | 約405GB | 約202.5GB |
※上記は「パラメータ数 × 1パラメータあたりのバイト数」から計算した、モデル重みのみの概算です。実際の運用では、KVキャッシュ、推論エンジンの使用領域、OSや他プロセスのメモリ使用量も加わります。
BF16はbfloat16の略で、FP16と同じく16ビットで数値を表す浮動小数点形式です。そのため、モデル重みの必要メモリを概算する場合には、FP16/BF16を同じ列として扱っています。一方、INTはIntegerの略で、整数形式を意味します。INT8は8ビット整数、INT4は4ビット整数で数値を表す形式です。
たとえば、200Bパラメータ級モデルをFP16で扱う場合、重みだけで約400GBのメモリが必要になります。一方で、FP4相当まで低精度化できれば、重みのサイズは約100GBまで下がります。DGX Sparkの単体200B級対応は、このような低精度化を前提に理解する必要があります。
ただし、実際のLLM運用では、モデル重み以外にもKVキャッシュや推論エンジンの使用領域が必要になります。そのため、「メモリ上にモデルが載ること」と「快適に推論できること」は分けて考える必要があります。
***FP:Floating Pointの略で、浮動小数点形式を表す。たとえばFP16は、16ビットの浮動小数点形式で数値を扱う方式を指す。
1台構成でできること
DGX Spark単体では、ローカル環境でLLMの推論やfine-tuningの検証、AIアプリケーションのプロトタイピングを行うことができます。クラウドAPIを利用せずに手元の環境でモデルを動かせるため、機密情報を扱う用途にも活用しやすい構成です。
ローカルLLM推論
もっとも基本的な用途は、LLMをDGX Spark上で起動し、ローカル環境で推論を行うことです。小規模なモデルであれば一般的なPCでも動作する場合がありますが、モデルサイズが大きくなるほどGPU性能やメモリ容量が制約になります。
DGX Sparkは128GBの統合メモリを備えているため、中〜大規模モデルの推論や、複数のモデルを使った検証がしやすくなります。特に、一般的なPCでは扱いづらい大規模LLMをローカルで試せる点が単体構成における大きな特徴です。
fine-tuningの検証
DGX Sparkでは、既存の学習済みモデルを用途に合わせて追加調整するfine-tuningの検証も想定されています。たとえば、社内文書に合わせた回答をさせたい場合や、特定の業務に適した回答形式にそろえたい場合、専門分野に寄せた出力を試したい場合などに、ローカル環境でモデル調整の検証を進めることができます。
fine-tuningは、AIモデルを一から作り直すという意味ではありません。すでに学習済みのモデルをベースにして、用途に合わせて振る舞いを調整するイメージです。実際にどの規模のモデルをどの程度快適に調整できるかは、モデルの大きさ、学習データの量、調整方法、実行時の設定などによって変わります。
ローカルLLMサーバーとしての利用
DGX Spark上でOllama****やvLLMなどを使ってLLMを起動すれば、他のPCやアプリケーションからそのLLMを利用することもできます。たとえば、Webアプリや社内ツールからDGX Spark上のLLMにリクエストを送り、回答を取得するような構成です。
このような使い方をすると、DGX Sparkを単なる個人用の推論環境ではなく、ローカルネットワーク内で利用できるLLM基盤として扱えます。社内文書を検索してLLMに回答させる仕組みや、AIエージェント、チャットUIとの連携なども検証しやすくなります。
たとえば、Dify*****のようなAIアプリ構築ツールと組み合わせる場合、Difyでチャット画面や処理の流れを作り、OllamaやvLLMで起動したローカルLLMがその裏側で回答を生成します。DifyとOllamaを使ったローカルLLM構成については、以下の記事でも詳しく解説しています。
参考記事:DifyでローカルLLMを利用する4つの手順。セキュリティリスクの懸念と解決策
****Ollama:ローカル環境でLLMを起動・実行するためのツール。手元のPCやサーバー上でモデルを動かし、外部のクラウドAPIに依存せずに文章生成や質問応答を行える。
*****Dify:LLMを使ったチャットボットや業務アプリを作るためのAIアプリ開発ツール。OllamaやvLLMなどで起動したLLMと接続し、チャット画面や文書検索、処理の流れを構築できる。
「動く」と「快適に使える」は別
一方で、モデルが起動できることと、実際に使いやすい速度で動くことは別です。大きなモデルほど多くのメモリを使うため、起動できたとしても応答が遅くなる場合があります。また、長い文章を入力する場合も処理する情報量が増えるため、返答が始まるまでの時間や全体の生成時間に影響します。
そのため、DGX Spark単体での実用性を見るには、モデルが起動できるかだけでなく、実際の応答速度も確認する必要があります。具体的には、1秒あたりにどれくらいの文章を生成できるか、最初の応答が返ってくるまでにどれくらいかかるか、メモリをどの程度使っているかなどを見ることが重要です。
2台構成でできること
DGX Sparkは、単体での利用に加えて、2台を接続したクラスタ構成にも対応しています。クラスタ化とは、複数のマシンを接続し、1つのまとまった計算環境のように扱う構成のことです。DGX Sparkの場合、2台のシステムをConnectXネットワークで接続することで、単体構成よりも大きなモデルや分散処理を扱えるようになります。
NVIDIAの公式情報では、DGX Spark単体では最大200Bパラメータ級モデル、2台構成では最大405Bパラメータ級モデルに対応するとされています。このことから、2台クラスタ化の主な目的は、単純に処理速度を2倍にすることではなく、1台では扱いにくい規模のモデルを動かせるようにする点にあると考えられます。
ただし、2台を接続すればすべての処理がそのまま高速になるわけではありません。2台構成では、モデルや処理を複数のマシンに分けて実行するため、マシン同士でデータをやり取りする必要があります。そのため、処理内容によっては、単体構成よりも設定や実行の工夫が必要になります。
このように、DGX Sparkのクラスタ化は「速度を上げるための構成」というより、「より大きなLLMをローカル環境で扱うための拡張構成」と捉えると分かりやすいでしょう。



