AICU

Qwen3-TTS:論文を読んで実験してわかった日本語調教術!

作成者: AICU Japan|2026/01/24 19:26:57 Z

Alibaba Qwenチームは2026年1月22日、強力な音声生成能力を持つ「Qwen3-TTS」シリーズをオープンソースとして公開しました。このモデル群は、ボイスクローンや音声設計、超高品質な人間らしい音声生成、そして自然言語による精密な音声制御を統合した、現時点で最も包括的な音声生成ツールキットといえます。モデルが自律的に推論する、次世代のTTSを「同じキャラクターとして聞こえるように調教してみた」実験レポートです。

ナオ・ヴェルデ、Qwen3-TTSに挑戦。

どうも、AiCutyで音楽と開発技術を担当しているナオ・ヴェルデ(Nao Verde)です。本日、Qwenシリーズに、無視できない大きなリリース「Qwen3-TTS」が発表された!QwenはAlibaba Cloudが開発してる大規模言語モデル(LLM)シリーズだ。特徴はいくつかあるけど、まず注目したいのはその多様性だよな。Qwen-VLとかQwen-Audioとか、画像や音声も扱えるマルチモーダルなモデルがある。テキストだけでなく、いろんな情報を処理できるってのは、クリエイターにとっても刺激的だろ?しかも、かなり高性能で、オープンソースで公開されてるバージョンも多い。開発者にとっては嬉しいポイントだよ。気軽に試せるし、カスタマイズの自由度も高い。

しかも、今回は高性能なText-to-Speech(TTS)モデルがオープンソースで公開された!開発者にとっては嬉しいポイントだし、ボクたちのAiCutyプロジェクトでエレナやメイがさらに表現力を高めるための、強力な武器になる予感がしてるんだ。

HuggingFaceでワンショットのデモで満足している場合じゃないぜ!
期間限定・回数限定で使えるデモサイトも作りました!

https://qwen3tts.aicu.jp/

Qwen3-TTSファミリーの全貌:1.7Bと0.6Bの二段構え

Qwen3-TTSは、利用シーンに合わせて最適化された2つのサイズで展開されています。

  • 1.7Bモデル: 最高峰のパフォーマンスと強力な制御能力を誇り、プロフェッショナルなコンテンツ制作に最適。

  • 0.6Bモデル: 性能と効率のバランスに優れ、デバイス上での動作やリアルタイム性が求められる環境で真価を発揮。

これらのモデルは、日本語、英語、中国語を含む10の主要言語をサポートしており、方言への対応も万全です。単にテキストを読み上げるだけでなく、文脈を深く理解してトーンやリズム、感情表現を適応させる能力を持っています。

技術の核:革新的な12Hzトークナイザーとデュアルトラック構造

Qwen3-TTSの圧倒的な表現力を支えているのが、独自開発された Qwen3-TTS-Tokenizer-12Hz です。

このマルチコードブック音声エンコーダーは、音声信号を効率的に圧縮しつつ、高次元のセマンティック・モデリングを実現しています。これにより、軽量な非DiT(Diffusion Transformer)アーキテクチャを通じて、高速かつ高忠実な音声再構成を可能にしました。また、デュアルトラック・ハイブリッド・ストリーミング生成により、エンドツーエンドの合成遅延は0.6B モデルで最短 97 ms、1.7B モデルでも 101 ms という驚異的な低遅延を実現しています 。

 

圧倒的な性能:ElevenLabsやMiniMaxを超える数値

Qwen3-TTSは、多くの指標でSOTAを記録しています。多言語テストセットでは、単語誤り率(WER)1.835%、話者類似度0.789という数値を叩き出し、ElevenLabsをも凌駕しています。

また、ボイスデザイン(指示文による音声作成)の分野でも、プロンプトへの忠実度が非常に高い。「高揚した男性の声で、切迫感を出すために叫ぶような音量で」といった詳細な要求にも応え、キャラクターの背景設定(年齢、職業、性格)を読み込ませることで、その人物になりきったセリフ回しを生成することも可能です。

AIに「魂」を吹き込む。Qwen3-TTS日本語調教・極秘レシピ

最新の論文を隅々まで読み込み、自分のMacで実際に回してみることで、Qwen3-TTSの「日本語を完璧に手なずけるためのコツ」が見えてきた。

単にテキストを流し込むだけじゃない。モデルの内部構造を理解して、意図した通りの「声」を引き出すためのナオ・ヴェルデ流・日本語調教術を伝授するよ。

1. 目的別・トークナイザーの選択術

Qwen3-TTSには「12Hz」と「25Hz」という2つの心臓部がある。ここを間違えると、どんなに良いプロンプトを書いても理想の声にはならないんだ。

  • リアルタイム対話なら「12Hzモデル」一択

    • 理由: 完全な因果的(Causal)設計で、未来のトークンを待たずに音声を生成できる。0.6Bモデルならわずか 97 ms という驚異的な速さで最初のパケットを吐き出せるんだ。

  • 長文の安定性なら「25Hzモデル」

    • 理由: セマンティック(意味)トークンを重視した設計で、Diffusion Transformer (DiT) を使用している。レポートの評価でも、10分を超えるような長尺の読み上げでは25Hzの方が安定性が高いことが示されているよ。

2. 「指示(Instruct)」の解像度を上げる

Qwen3-TTSの強みは、自然言語による精密な制御(VoiceDesign)だ。日本語のニュアンスを刻むには、以下の要素を指示文に盛り込むのがコツだね。

  • 「思考パターン」を刺激する: 複雑な説明を理解させるために、トレーニング中に「確率的に活性化される思考パターン(Thinking Pattern)」が導入されている。単に「明るく」ではなく、「ニュースキャスターのように知的で正確な発音だが、少し親しみやすさを込めて」といった多角的な説明が有効だ。

  • 句読点と間の制御: Qwen3-TTSはテキストの構造を深く理解し、句読点に基づいて適応的にリズムや感情表現を調整する。意図的に読点(、)を増やすことで、人間らしい自然な「ため」を作ることができるんだ。

3. クローン精度を極めるなら「ICLモード」

ボイスクローンには、スピーカー・エンベディングを使う方法と、インコンテキスト学習(ICL)を使う方法の2種類がある。

  • 音色だけならエンベディング: リアルタイム性は高いけど、韻律(メロディ)までは再現しきれないことがある。

  • 「喋り方」まで写し取るならICL: 3秒以上の参照音声と、その書き起こしテキストをセットで入力する。これにより、日本語特有のアクセントの癖や感情の乗り方まで含めた、より高精度なクローンが可能になるんだ。

4. ハードウェアの「余裕」を確保する

実験の結果、Apple Silicon (MPS) 環境では float16 での実行が最も効率的だった。GPUメモリを節約しつつパフォーマンスを出すために、FlashAttention 2 の導入は必須と言っていい。

https://qwen.ai/blog?id=qwen3tts-0115

https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

 

現場検証:ナオ・ヴェルデによるサンプリング・レポート (2026-01-23)

「能書きはいいから、実際どうなんだ?」ってことで、ボクのMac (Apple Silicon) 環境でさっそく回してみた。ちょっと信じられないけど「モデルが自律的に推論している」だけに、毎回声が変わってしまうのが大変だけど、きちんと調教することで、本当に次世代のTTSを味わうことができた。ニュースアナウンサー風の日本語音声生成と、そのクローン精度をチェックした結果を共有するよ。

1. 検証セットアップ

モデル: Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
使用話者: Ono_Anna (日本語)
指示文 (Instruct): 「日本のニュースアナウンサーのような知的で正確な発音。少し速めに。漢字は正しく日本語で、英単語は英語の発音で。」
実行環境: macOS 15.6.1 (arm64), Python 3.12, torch 2.10.0

再現コマンド(ソースコードは文末で)

.venv312/bin/python examples/custom_voice_cli.py "おはようございます!ミナ・アズールです。日本語でお送りします。本日の天気は晴れ、気温は8度です。今日のニュースです。中国アリババの研究所から新しいTTSモデルQwen3-TTSが公開されました。" && open -a VLC output_custom_voice.wav
 

これを同じシードで10回生成した結果がこれだ。これはひどい、全然同じ人物に聞こえないぜ!!

2. 推論結果の分析

ナオのメモ: do_sample=False(決定論的設定)でも、MPS環境では波形が完全に一致せず、3つのクラスタに分かれる現象が見られた。また、サンプリングを有効にすると、MPSではたまに「35秒」を超えるような生成の「迷い」が生じるケース(外れ値)がある。安定性とリソースのトレードオフが面白いところだね。

現場検証セクションの「do_sample=False でも結果が分かれる」という知見は、公式レポートにも載っていないAICU AIDX Labだけの発見かもしれない。MPS 環境特有の挙動かもしれない。

「1 文字目から音が出る」魔法の正体は、12Hz モデルが採用している MTP モジュールにある。先読み不要で、次の音を即座に予測するアクセルペダルのようなものだな!

3. ボイスクローンの実力 (Baseモデル)

生成した「ミナ・アズール」の音声をリファレンスにして、Baseモデルでクローンを試みたところ、こちらは完璧。サンプリングをオフにすれば10回とも同一の波形を出力し、相関1.0という極めて高い再現性を見せた。平均生成時間も27秒前後と、実用レベルだ。

どうだい?ちょっとは良くなっただろ?

ナオ・ヴェルデのまとめ

Qwen3-TTSは、これまでの「ただ喋るだけのAI」から、「文脈と意図を理解して演じるAI」へと進化した。

ボクたちクリエイターがこの「調教術」をマスターすれば、ゲームのキャラクターに命を吹き込んだり、自分の声を多言語に完璧に変換したりする未来が、もう手元に届く。

最新のオープンソース技術を使い倒して、ボクたちにしかできないクリエイティブを見せてやろう。

また面白い技術を見つけたら共有するよ。

それじゃ、最高の開発(と音楽制作)を!

---

この記事の続きはこちら 

 

Originally published at note.com/aicu on Jan 1, 2026.