生成AIは何をしているのか AIキャラ開発スタートガイド

新連載「AIキャラ開発スタートガイド」の第1回はズバリ「生成AIは何をしているのか」について解説します。皆さんは説明できますか？

https://www.aicu.jp/post/260321

画像生成AIは「魔法」ではなく、論理的な「推論」の結果です。多くの人がなんとなく使っているこの技術を、エンジニアやクリエイターとして自信を持って説明できるようにするため、ここでは「写真の歴史」というアナロジーを用いて解説します。2022年の「Stable Diffusion」の登場による衝撃から、現在の動画生成に至るまでの技術的・歴史的背景を振り返りながら、ブラックボックスの中身を解説できるようになりましょう。

https://j.aicu.ai/SBXL

画像生成AIの「ブラックボックス」を説明できるように

皆さんは、画像生成AIによって「何ができるのか」については何となく理解していると想像します。ChatGPTやMidJourneyといったサービスに、テキストをプロンプトとして与えると「それらしい画像」が生成されてきます。これは誰か人間が「描いている」のではなく、膨大な機械学習によって学習された結果を使って「推論」しています。

画像生成AIの結果だけ見ていると、まるで「チャットの向こう側に、妖精か何かがいて、ユーザーのリクエストにしたがって手を動かして描いているんじゃないか」という感覚もあるかもしれませんが、それは違います。また、「世界中の画像をバラバラに切り刻んで、モザイクアートのように組み合わせている」という想像をしている人もいますが、これも違います。画像生成はテキスト生成と同じく「推論の結果」であり、そのプロセスは私たちの想像する「絵を描く」こととは全く異なったものです。

従来のデジタルイラストレーションと、AIモデルによる画像生成・動画生成の違いについて、「ブラックボックス」のままではなく、AI技術の使い手としてきちんと理解して説明できることを目指します。

まずは「写真」に例えてみよう

他人に画像生成AIを説明する上で、わかりやすい手法の一つとして、「写真」という技術や歴史を使ってみることをおすすめします。

現在の「写真」は様々な方法で使われています。ニュースサイトの記事に挿入される写真、家族の記念写真、スマホで撮影する写真……。さまざまな装置を使って画像を記録したり、共有したりするメディアのことを「写真(photography)」と呼んでいると思います。

写真を撮影する「カメラ」や「レンズ」、カメラの内部にある撮像素子を理解しなくても、写真というメディアを見たり楽しんだりすることはできますが、その中身がわからないまま、写真を作り出すことは難しいでしょう。今やスマートフォンで誰もが動画作品を作り出すことができますが、現在のスマートフォンでのカメラアプリ以前に、一眼レフや、コンパクトデジカメ、さらにその前はフィルムや現像プロセスを使う銀塩写真、さらにもっと前は白黒写真や銀盤写真といった技術や歴史がありました。この歴史の全てを知っている必要はありませんが、進化の過程を知っておくと、仕組みや構造、そして人々に求められてきた機能の背景がよくわかります。

画像生成AIの歴史、動画生成AIにいたるまで。

この連載で扱う近年の画像生成AI「Stable Diffusion」をそのはじまりとします。2022年8月22日に全世界に向けてオープンに公開された「Stable Diffusion」（以下、SD）です。その当時、まだ一般的に公開されていなかった OpenAIの「DALL-E」や、サービスが始まったばかりの「MidJourney」に対抗する形で、イギリスの Stablity AI 社らが無償でダウンロードできる形でその「モデル」を公開したことが最大のインパクトでした。当時の一般の人々は「コンピューターが人間が描いたかのような画像を生成するなんて不可能だ」と思っていたところ、世界中で SD を使用したサービスや類似の技術が登場し、世界のAIに対する常識は大きく変わりました。「推論AI」や「生成AI」時代のはじまりです。

2026年の現在から振り返ると、ちょっと信じられないかもしれませんが、OpenAIが「ChatGPT」という大規模言語モデル(以下、LLM）によるチャットサービスを開始したのが、2022年11月です。現在ではあまりにも有名で「生成AIといえばChatGPT」という常識になっているかもしれませんが、実際には「画像生成をオープンに公開されたことによって、世間の常識が刺激され、大規模言語モデルによるサービスが多数現れるようになった」というタイムラインが歴史の真実でもあります。

SDは、その後「SDXL 1.0」（以下、SDXL）が2023年7月27日頃に、さらに「Stable Diffusion 3.5」が2024年10月22日（日本時間）にリリースされるなど、バージョンアップが続いています。

https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide

そして、ここではあえて「写真」に例えてきましたが、SDはその内部で「銀塩写真の現像プロセス」とよく似た「ノイズ除去プロセス」を使って画像を生成しています。後に技術解説をしていきます。SDXLを中心に最新の画像生成AI、そして動画生成AIについてもその違いを解説できるようにしていきましょう。

生成AIの「現在地」を説明できるようになろう

今回は、以下の3つの視点から画像生成AIの本質について解説しました。今後もたくさんの「モデル」が登場することが予想されます。以下の3点について、生成AIは何をしているのか、そして生成AIの「現在地」を説明できるようになりましょう。

①「描画」ではなく「推論」である：画像生成AIは、妖精が絵を描いているわけでも、魔法の箱でもありません。膨大な学習データに基づいた特徴を表す計算とその「モデル」に基づく推論の結果であることを理解しましょう。一般向けに生成AIによる画像を「描画」と表現すると、従来のCGや、手を使った作画と混乱を招くため「生成」や「推論結果」であることを意識しましょう。

②「写真」の歴史に学ぶ：画像生成の歴史や人類のメディア史を振り返ると、画像生成AIと写真機の誕生は共通点が多くあります。カメラの構造を知らなくても写真は撮れますが、名作を生み出すには光やレンズ、撮像素子などの知識が必要です。同様に、生成AIもその進化の歴史や構造（モデルの仕組み）を知ることで、その特性や限界の理解とともに、表面的な操作を超えたクリエイティブな生成や再現性がある手法の開発が可能になります。

③歴史的転換点から学ぶ：2022年の「Stable Diffusion」の公開は、ChatGPTに先駆けて世界に衝撃を与えた「生成AI元年」のターニングポイントでした。またLLMと呼ばれる大規模言語モデルと画像生成技術には密接な関係があります。そこからSDXL、そして動画生成へと続く進化の系譜を知ることは、2026年以降に登場するであろう最新技術を長年にわたって使いこなしていくための基礎教養とも言えます。

次回からは、この基礎知識を理解するスタンスをもって、具体的なモデルの仕組みや、思い通りの画像を生成するためのテクニックやその解説へと踏み込んでいきます。

https://www.aicu.jp/post/260321

Originally published at note.com/aicu on Mar 24, 2026.

画像生成, AIキャラ開発スタートガイド

生成AIは何をしているのか AIキャラ開発スタートガイド

画像生成AIの「ブラックボックス」を説明できるように

まずは「写真」に例えてみよう

画像生成AIの歴史、動画生成AIにいたるまで。

生成AIの「現在地」を説明できるようになろう

Share:

AICU Japan

Comments

Related posts