【初心者から画像・動画生成AIを学び直し!】スタートガイド第2回です。
生成AIと一口に言っても、その種類は多岐にわたります。前回触れた「Stable Diffusion」のような画像生成AIは、広大なAIの世界のほんの一部に過ぎません。今回は、現在主流となっている生成AIを「データの種類」ごとに分類・整理します。論理的思考や言語を操る「テキスト生成」、視覚表現を担う「画像・動画生成」、そして聴覚に訴える「音声・音楽生成」。それぞれのAIが何を得意とし、クリエイティブの現場でどのような役割を果たしているのか。これらを個別のツールとしてではなく、相互に連携する「制作パートナー」として捉え直すための地図を描いていきましょう。
https://www.aicu.jp/post/260321
ChatGPTと画像生成AIの共通点
生成AIの種類を細かく見ていく前に、まずは現代の生成AIの二大巨頭とも言える「テキスト生成AI(LLM)」と「画像生成AI」の共通項を押さえておきましょう。
一見すると、言葉を操るChatGPTと、絵を描くStable Diffusionは、全く別の技術のように思えるかもしれません。しかし、これらを使いこなすための根本的な考え方は驚くほど似ています。共通点は大きく分けて2つあります。
① 人間の言葉(自然言語)で指示ができる
最大の特徴は、どちらも「プロンプト(指示命令文)」というインターフェースを持っていることです。 従来、コンピュータに複雑な処理をさせるには、プログラミングコードや専用の操作パネルが必要でした。しかし、生成AIは「海辺で遊ぶ猫の絵を描いて」「この文章を要約して」といった自然な言葉を理解します。 これは、AI内部で「言葉の意味」と「画像の特徴」が数学的に紐付けられているためです。つまり、言語能力こそが、画像生成をコントロールするハンドルになっています。そのため、画像生成を極めるには、言語化能力(プロンプト力)を鍛えることが不可欠となるのです。
②「検索」ではなく「確率」で生成している
もう一つの共通点は、どちらもネットを検索した結果や、ネット上のコンテンツをダウンロードした結果から答えを探してくる「検索エンジン」ではない、ということです。 ChatGPTは「次にくる可能性が最も高い言葉」を予測して文章を繋いでいます。同様に、画像生成AIも「この言葉の指示なら、ここにこういう色が置かれる確率が高い」という推論を繰り返して画像を構築しています。 だからこそ、両者とも毎回微妙に違う結果が出たり、時には事実と異なる幻覚(Hallucination: ハルシネーション)や、指の本数がおかしい画像を出力したりします。これはバグではなく、確率的に(見た目にそれらしい)「正解らしきものを作っている」という仕組み上の仕様なのです。
この「言葉で操る」「確率で動く」という2点を理解しておくと、この後に紹介するどの種類の生成AIに触れる際も、その挙動をイメージしやすくなります。それでは、具体的な種類とその特徴を見ていきましょう。
さまざまな生成AIサービスの種類とその特徴
1.テキスト生成AI
ChatGPT, Claude, Geminiなどに代表されるテキスト生成AIは、大規模言語モデル(LLM)とも呼ばれます。役割としては、日常的な生活や作文の相談だけでなく、画像生成においては翻訳やプロンプト作成、その錬成や最適化、アイデア出し、スクリプトやプログラムコードといったコーディング支援にも使うことができます。人間の発想を助ける「指示役」として不可欠なだけでなく、画像生成の内部ではCLIPという「言語と画像をつなぐデータベース」としての影の主役としての役割も存在しています。
2. 画像生成AI
Stable Diffusion, Midjourney, ChatGPTによる画像生成、Google Geminiの画像生成モデル「Nano Banana」などが有名です。役割は人々の頭の中にあるビジュアルを具現化することです。本書のメインテーマでもあります。ChatGPTでの画像生成は内部に gpt-image-1 という画像生成AIモデルを有しています。Nano Banana は対話的な編集能力が高いAIです。有料のサービスとして提供されるAIサービスだけでなく、SDと同様に手元のコンピューターでチェックポイントを読み込んで利用できる、オープンなモデルも存在します。実写系の画像生成に強いドイツのBlack Forest Labs社による「FLUX」や、中国アリババによる「Z-Image Turbo」といったモデルが有名ですが、Cagliostro Lab(カリオストロラボ)「ANIMAGINE」のようにイラストレーションに特化したモデルをオープンに配布する企業や団体、個人クリエイターも存在します。商用サービスだけでなく、オープンなモデルが存在することで、まさに多種多様な画材や画風を担保することができています。
3. 動画生成AI
Google「Veo」、OpenAI「Sora」, アリババ「Wan」、他にもRunway, Kling, HiggsFieldといった会社やブランド名で、有料サービスが多くあります。Adobe Premiereから利用できるようなモデルも存在します。役割としては画像に「動き」と「時間軸」を与え、動画化することができます。かつてはフレーム間の安定性やキャラクターなどの一貫性が課題になっていましたが、2026年現在では非常に安定したモデルが登場しており、高品質な動画や、会話、歌唱、ダンスといった高度な表現や演技が可能になっています。人物だけでなく、高度なカメラ制御に加えて、空中撮影やSF映画で使うような爆発や破壊といったVFXも生成できます。これらは「世界モデル」や物理的なシミュレーション結果を学習していると言われています。
4. 音声・音楽生成
Suno, Udio, ElevenLabsなど。楽曲や音声を作り出し、動画作品への付加価値を生み出します。効果音や楽曲だけでなく、歌唱などもできるようになってきました。有料の商用AIサービスが多くありますが、Stable Audioのような無償で利用できるモデルも存在します。またSunoやUdioにおいては、当初は音楽レーベル各社と訴訟を行っていましたが、最近では和解し、有償利用と引き換えに、著作権解決を行えるサービスとなっている側面もあります。
https://ws.aicu.jp/labplus-neo/
役割の分担(モダリティ)の理解
---
この記事の続きはこちら https://www.aicu.jp/post/260405
Originally published at note.com/aicu on Apr 5, 2026.

Comments