NVIDIAのNemotron-Labs Diffusionは、自己回帰型(AR)モデルと拡散モデルを単一のアーキテクチャに統合した。この「トライモード」アーキテクチャは、推論時にアテンションパターンを変更するだけで、AR、拡散ベースの並列デコーディング、および自己推測デコーディングの3つのモードを切り替え可能である[出典3]。特に「自己推測(Self-speculation)」モードでは、拡散モデルが候補トークンを並列にドラフトし、ARモデルがこれを検証することで、GPUの並列演算能力を最大限に活用する。これにより、B200 GPU環境では従来の自己回帰モデルと比較して最大6.4倍のトークン生成速度を達成したと報告されている[出典2]。
Nemotron-Labs Diffusionの設計思想は、開発者が既存のアプリケーションを大幅に改修することなく、その恩恵を享受できる点にある。推論時にアテンションパターンを変更するだけでデコーディングモードを切り替えられる柔軟性は、異なるデプロイメントシナリオや並行処理レベルで高いスループットを維持することを可能にする[出典3]。また、SGLangによるサポートも予定されており、既存のLLMデプロイ環境との互換性が確保される見込みである[出典6]。NVIDIA Nemotron Open Model Licenseの下で3Bから14Bまでのモデルが公開されており、商用利用を含むオープンなエコシステムの構築を目指している[出典1]。
ChatGPTに代表される多くのLLMは、トークンを一つずつ順番に生成する自己回帰(AR)手法に依存している。この逐次的な処理は、GPUの並列処理能力を十分に引き出せず、演算よりもメモリ帯域がボトルネックとなる「メモリバウンド」な状態を常態化させていた[出典3]。一方、拡散言語モデルは、1回のフォワードパスで複数のトークンを並列にノイズ除去することで、高いスループットを実現する。Nemotron-Labs Diffusionは、生成プロセスをメモリバウンドから計算バウンドへと移行させ、モデルの重みを一度ロードした後、複数のトークン生成に再利用する[出典6]。
NVIDIAが提示したこの技術は、LLMの標準を塗り替える可能性を秘める一方で、いくつかの課題も存在する。拡散モデル特有の反復ステップ数が推論コストに与える影響や、複雑な論理的推論タスクにおける精度維持の限界については、実運用を通じた検証が不可欠である。また、既存のKVキャッシュ最適化技術との完全な統合や、多様なハードウェア環境での安定したパフォーマンス発揮も今後の課題となるだろう。NVIDIAの積極的な性能主張に対しては、業界内で期待と懐疑的な見方が混在していると見られる[出典5]。