低遅延、低ビットレートでも高品質な日本語同時双方向音声対話! 商用利用可能な「LLM-jp-Moshi-v1」公開

作成者: AICU Japan｜2026/02/26 18:42:07 Z

人とAIがつくるアイドルプロジェクト「AiCuty」で音楽・開発を担当しているNao Verdeです。今回は、日本のAI研究における大きなマイルストーンとなる発表について解説します！
2026年2月25日、国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）が、日本語で同時双方向（Full-duplex）の対話を実現する音声AIモデル「LLM-jp-Moshi-v1」を公開しました。特筆すべきは、これがApache 2.0ライセンスという、商用利用が可能な極めてオープンな形で提供された点です。

NII/LLMCの対話WGの成果として，日本語リアルタイム音声対話モデル LLM-jp-Moshi-v1 を公開しました！LLM-jpで独自に収集したデータを用いて学習しており，商用利用可能なライセンスです．詳しくは下記のリリースをご覧ください．https://t.co/419eZGqkKW
— Ryuichiro Higashinaka (@RHigashinaka) February 25, 2026

1. 「同時双方向（Full-duplex）」がもたらすパラダイムシフト

従来の音声対話システム（スマートスピーカーなど）の多くは「半二重（Half-duplex）」、つまり「人間が話し終わるのを待ってからAIが処理を開始する」という交互対話形式でした。しかし、人間同士の自然な会話はそうではないですよね。相手の言葉に相槌を打ち、時には言葉を被せ、沈黙の「間」で感情を読み取ります。

「LLM-jp-Moshi-v1」は、フランスのKyutai Labsが開発した「Moshi」をベースに、日本語特有の対話データを追加学習（ファインチューニング）することで、この人間らしいリアルタイムな応答性を日本語で獲得しているそうです。
ちょうど昨年の2025年1月24日、名古屋大学の研究者らが日本語全二重対話システム「J-moshi」を試作し、Hugging Faceで公開しました。

https://www.aicu.jp/post/j-moshi-20250124

技術的特徴

ストリーミング処理: 音声をトークン化し、入力と出力を並列で処理することで、遅延を極限まで抑えている。
音声トークナイザ「Mimi」: 音声情報を効率的に圧縮・復元する技術により、低ビットレートでも高品質な対話を維持する。

2. 大規模な学習データとABCI 3.0の活用

このモデルの精度を支えているのは、膨大な日本語対話コーパスと、国内屈指の計算リソース。モデルの学習には、約1,000時間に及ぶ多様な日本語音声データが投入されている。

J-CHAT: 日本語の雑談対話データ。
LLM-jp-Zoom1: オンライン会議のような自然な対話環境を模したデータ。
Tabidachi / 日本語CallHome: 旅行案内や電話応対など、実用的なシーンのデータ。

これらのデータを学習した演算基盤が、国立研究開発法人産業技術総合研究所が構築し、株式会社AIST Solutionsが運用する、AI技術開発・橋渡しのためのオープンな計算インフラストラクチャ「ABCI」（AI Bridging Cloud Infrastructure）です。2018年8月に提供開始し、2025年1月に3.0に生まれ変わりました。この産総研が提供するAI橋渡しクラウド（ABCI）3.0を用いて学習させることで、日本語特有の語順やイントネーション、そして「対話のタイミング」を学習させたそうです。

3. 評価結果から見る「自然さ」の向上

公開されたベンチマーク結果では、既存の研究用モデル（J-Moshi）と比較して、複数の指標で顕著な改善が見られたそうです。

対話継続タスク（入力音声対話に対して、その続きとなる対話音声を生成させ、その妥当性について評価を行うタスク）において、クラウドワーカーによる客観的自動評価と人間による主観評価の双方を実施し、既存の公開モデルであるJ-Moshiと比較して、自然性および意味的適切性の両面で優位な性能を示した
入力音声としては，LLM-jp-Zoom1のヘルドアウトしたテストデータ、Tabidachi（旅行案内の音声対話）、日本語CallHome（日本語CH）を用いた。実音声は、入力音声対話の続きとなる実際の人間同士の音声を表す

NISQAは音声の自動評価尺度の値（5段階）を表す。LLMAJはLLM-as-a-judgeの枠組みを用い、大規模言語モデルに対話としての自然性や流暢性を評価させた値（10段階）を表す指標だそうです。特に「自然性」のスコアが大きく向上しており、機械的な応答から脱却し、より「人間と話している感覚」に近い体験を提供できるレベルに達していることがわかります。

実際の視聴はこちらで！

4. GitHubから入手可能

https://llm-jp.github.io/llm-jp-moshi/

Kyutai公式のMoshiのPyTorch実装を用いて，LLM-jp-Moshi-v1と対話することができます．実装の詳細は，オリジナルMoshiのリポジトリ kyutai-labs/moshi を参照してください。

実行には，24GB以上のVRAMを搭載したLinux GPUマシンが必要です．MacOSには対応していません．
モデルの発話音声がエコーすることを避けるため，対話時にはスピーカではなくイヤホン・ヘッドホンを使用してください．音声デバイスはweb UIアクセス時にブラウザ上で設定できます．

ライセンス：LLM-jp-Moshi-v1 は Apache License, Version 2.0 の下で公開されています。

5. クリエイティブ・ビジネスへの応用可能性

この「対話ワーキンググループ」は自然言語処理および計算機システムの研究者が集まり大規模言語モデルの研究開発について定期的に情報共有を行っている「LLM-jp」における研究活動の一環として設置された学術研究グループです。国立情報学研究所NII/LLMC科学主幹の東中竜一郎教授を中心に、早稲田大学の小川哲司教授、慶應義塾大学の高道慎之介准教授と緊密に連携しながら研究を推進しています。商用利用可能なこの自然な双方向音声対話モデルの登場は、様々な分野に進化をもたらす可能性があります。

カスタマーサポート: 顧客の言葉を遮ることなく、スムーズな相槌を打ちながら案内する高度なボット。
エンターテインメント: ゲームキャラクターやバーチャルアイドルとの、タイムラグのない「生きた」会話体験。
教育・カウンセリング: リアルタイムな反応が重要視されるメンタルケアや語学学習。

まずはものすごい自然な速度でしゃべる雑談を聞いてみてください！この「間合い」の技術は不可欠な要素になってくるはずです。

結論：オープンなエコシステムが未来を創る

NIIがこのモデルをオープンなApache License, Version 2.0 として公開した意義は大きいと思います。誰でもこのモデルをベースに独自のカスタマイズを施し、新しいサービスを生み出すことができるからです。日本語音声AIの未来は、この「同時双方向」という新しい標準（スタンダード）によって、より人間らしく、よりクリエイティブな方向へ加速していくでしょう。

参考リソース

https://www.nii.ac.jp/news/release/2026/0225.html

Originally published at note.com/aicu on Feb 26, 2026.

完全な記事を表示