IBM、多言語埋め込みモデルR2をApache 2.0で公開：小型モデルが性能刷新、エンタープライズAIの新たな地平か

IBMは2026年5月14日、多言語埋め込みモデルの最新版「Granite Embedding Multilingual R2」をオープンソースとしてHugging Face上で公開した。このリリースには、97Mパラメータのコンパクトモデルと311Mパラメータのフルサイズモデルの二種類が含まれ、いずれもApache 2.0ライセンスの下で提供される。

特筆すべきは、97Mパラメータの小型モデル「granite-embedding-97m-multilingual-r2」である。このモデルは、MTEB多言語検索ベンチマークにおいて60.3というスコアを記録し、サブ100Mパラメータのオープンな多言語埋め込みモデルの中で最高性能を達成したとIBMは主張する。これは、次点のモデルと比較して9.4ポイントもの大幅な差であり、リソース制約のある環境でのAI活用に大きなインパクトを与える可能性を秘めている。一方、311Mパラメータのフルサイズモデル「granite-embedding-311m-multilingual-r2」も、同ベンチマークで65.2を記録し、500M以下のオープンモデルの中で2位に位置づけられている。

両モデルは、200以上の言語に対応し、特に52言語と9つのプログラミング言語（Python、Go、Javaなど）において検索品質が強化されている。さらに、コンテキスト長が32,768トークンと、前世代のR1モデルから64倍に拡張された点も大きな進化である。これは、長文のドキュメントや複雑なコードベースからの情報検索において、より高い精度と網羅性を実現することに寄与すると見られる。技術的基盤としては、最新のTransformer研究を取り入れた「ModernBERT」アーキテクチャと、多言語・コード対応を強化した新しいトークナイザーが採用されている。

IBMは、これらのモデルが「エンタープライズ対応」であることを強調している。学習データには、IBMがキュレーションしたデータセット、公開データ、内部生成・合成データが混合して使用されており、商用利用におけるリスクを低減するため、品質、重複排除、ガバナンスプロセスが徹底されているという。特に、MS-MARCOデータセットや非商用ライセンスのデータセットの使用を意図的に避けている点は、企業が安心して導入できる環境を整備しようとするIBMの姿勢を示している。また、LangChain、LlamaIndex、Haystack、Milvusといった主要なAIフレームワークとの互換性も確保されており、既存のシステムへの導入障壁は低いと予測される。

しかし、いくつかの疑問も残る。「エンタープライズ対応」と謳われるデータガバナンスの具体的な透明性や、それが実際の商用環境でどのように評価され、信頼性を確立していくのかは、今後の運用実績が問われる点であろう。また、52言語で「強化された」サポートが提供される一方で、それ以外の148言語における実際の検索性能がどの程度であるか、特定のドメインや専門用語が多用されるテキストでの汎用性が確保されているのかも、実証が待たれる。ModernBERTアーキテクチャや新しいトークナイザーの採用は技術的な進歩を示すが、これが長期的に既存の主流モデルに対してどのような優位性を保ち、コミュニティの標準となり得るのかも注目すべき点である。

Granite Embedding Multilingual R2の登場は、多言語RAG（Retrieval-Augmented Generation）、クロスリンガル検索、コード検索といった多様なAIアプリケーション開発に新たな選択肢をもたらすだろう。特に小型モデルの性能向上は、エッジデバイスやコストに敏感な環境でのAI導入を加速させ、AI技術の民主化に貢献する可能性を秘めている。IBMがオープンソース戦略を強化し、エンタープライズ領域でのAI基盤モデル提供に注力する姿勢は、今後のAIエコシステムにおいて重要な役割を果たすと見られるが、その真価は市場での採用とコミュニティからのフィードバックによって測られることになるだろう。