2025 年 1 月 18 日、全国の受験生の運命を分ける大学入試共通テストが開催されているその同日に、東京科学大学(旧東工大)田町キャンパス「INDEST」にて、生成 AI クリエイターの未来を予感させるイベントが開催されました。
先日速報版を先行リリースいたしましたが、今回は見どころ満載のロングレポートです! AICU編集部の hikonyan がお届けします。
https://note.com/aicu/n/n4ea016876007
2025 年 1 月 18 日(土)、東京科学大学 田町キャンパス INDEST にて、「AICU Creators Talk 4 東工大からアメリカで博士獲る! AITuber x インタラクティブ技術の未来を共有します」が開催されました。本イベントは、 AITuber やインタラクティブ技術に関心のある方々を対象に、最先端で活躍するゲストの知見を共有し、参加者同士のネットワーキングを深めるイベントとして開催されたものです。 AICU Creators Talk (ACT) は今回で 4 回目を迎えました。
■過去の AICU イベントはこちら https://techplay.jp/community/aicu
今回のゲストは、 AITuber ブームの火付け役でもある『しずく』の開発や、 100 FPS 超えの超高速画像生成「Stream Diffusion」の開発で知られ、米国 UC バークレーで博士号を取得したあき先生(Kodaira Akio)氏。一時帰国の貴重な機会を捉え、出身校である東工大(現 東京科学大学)での開催となりました。会場には、 AITuber や AI 技術に関心を持つ学生や社会人など、濃密なメンバーが参加し、閉館時間直前まで熱気に包まれた時間を過ごしました。
AICU Japan & AICU Inc. 代表のしらいはかせより、 AICU の掲げるビジョン「つくる人をつくる」「わかる AI を届ける」「人がつなぐ AI」「AI 創造主が集うユニオン」と、 AICU の活動について説明がありました。
あき先生からは、東工大での学生時代から、UCバークレーでの博士課程、そして AITuber 『しずく』や「Stream Diffusion」の開発に至るまでの道のりが語られました。
<東工大時代>
東工大時代、元々はモバイルで動かせる人工筋肉など、ハードウェアの研究をやっていたというあき先生。ハードウェアの研究も楽しかったものの、実用化までに 10 年、20 年と時間がかかることから、もう少しスピードの早いところでやっていきたいと思い、ソフトウェアに関する研究のほうへ変更を決心しました。
ソフトウェアの研究では、2020 年〜 2023 年頃にかけて自動運転について研究していたそうです。ソフトウェアに関する知識が元々あったわけではなかったので大変だった、とあき先生は語ります。
< UC バークレーでの挑戦>
あき先生がアメリカの大学院へ進もうと思ったきっかけは、海外への進学に関する説明会に参加したことにあります。その説明会では、日本の博士課程とアメリカの博士課程の違いについて説明されていました。日本の博士課程は、就職しづらくなるなどと言われていますが、アメリカでは真逆で、博士課程はブランドであり、修了後の給料は上がるし、就職の選択肢は広がり、博士課程に在籍することで月 3,000 〜 4,000 ドルの給料が出て、学費も無料とのこと。日本とアメリカの違いに衝撃を受けたあき先生。これをきっかけに受験方法などの違いについても調べたそうです。アメリカでは、基本的な英語力は問われるものの、試験らしい試験はなく、論文数や有名な教授からの推薦、 GPA の高さといった総合的な評価で審査されます。あき先生は受験することに決め、無事に合格されました。
UC バークレーでの博士号取得への挑戦を始めたあき先生。海外の大学院は、日本の大学院と異なり、研究室一つ一つがスタートアップのようだと言います。国などから研究の助成金をもらい、そのお金で教員が学生を雇って成果を出そうとします。当然、成果が出せない学生はクビ、つまりは退学。途中で行われる筆記試験や口頭試問で 2 回落ちると退学。このように退学の危機が何度か訪れることもあるのだそう。それを乗り越えてきたあき先生は、海外の大学院はキャリアも開けて良い選択だったと語りました。
また、海外の大学院で重要なのは奨学金だとあき先生は教えてくださいました。 UC バークレーでは通常学費が年間で 6 万ドルかかります。ですが、奨学金をもらえていれば研究室からその学費を出す必要がなく、奨学金財団により優秀さも保証されているので、大学院に受かる確率も高まるのだそうです。あき先生の場合は、船井情報科学振興財団から奨学金をもらいました。
大学院進学にあたっては、何よりも「情報」だとあき先生は言います。過去に海外へ進学した先輩の話がまとまっている Web サイトなどでリサーチし、いつ相手方とコミュニケーションを取り始めれば良いか、いつ研究室訪問をしたら良いか、 GPA はどのくらい取れていれば良いかなど、情報を得ることが大事とのこと。
こんなにも日本の博士課程と海外の博士課程に違いがあるなんて驚きですね! 実際に博士号を取得されたあき先生だからこその貴重なお話を伺えました。
<AITuber『しずく』誕生秘話>
ここからは、あき先生が開発された AITuber 『しずく』のお話に。
「ドラえもん」などのロボットに元々興味があり、自分で人工知能を作りたいと思っていたあき先生。そのために、自動運転や画像生成モデル、言語モデルなどの研究をしていました。その中で生まれたのが、 AITuber 『しずく』でした。
<ここから先はメンバーシップ先行公開です>
またAICUマガジン Vol.9でも収録予定です!
『しずく』が YouTube 配信で初お披露目されたのは 2023 年 1 月のこと。配信では、リスナーが投稿したコメントをピックアップし、キャラ付けしたプロンプトで自動回答していきました。当時のリスナーからすると、 AI が自動で回答してくれる様はとても新鮮に映ったそうです。その後も何度か配信を行い、議論を進めていきました。
同月にバイノーラルの ASMR にも挑戦。音源がバイノーラルに聞こえるようにモデリングしたそうです。感情表現にも挑戦し、コメントの感情に対してどんな感情で返すか、プロンプトで判断して表情や返答の仕方に反映させたと言います。その他、歌ってみた動画やマインクラフトの配信、人間ではなかなか難しい 72 時間連続配信などにも挑戦したとのこと。
また、マルチモーダル(テキスト・画像・音声・動画など複数の種類のデータを一度に処理する技術)にも取り組んできたそうです。音声認識や画像認識を行うマルチモーダルな AI は、 2023 年当時ではまだ珍しかったとのこと。
YouTuberは技術とコンテンツが融合したものであるため、イテレーションを回すのが難しいとあき先生は語ります。どんなコンテンツが面白いのかはセンスが必要とされ、コンテンツをプロデュースする力があったとしても技術が伴わなければ難しい。ですが、 AITuber に取り組む開発者は、技術とコンテンツを持ち合わせている人々なので、今の AITuber の流れは今後も続くだろう、とあき先生は予想しています。
『しずく』の配信では毎回プロンプトを書き換えるのが大変だったと言います。モジュールごとに分けてノードベースに分けることでその手間を省き、もっとみんなが AITuber を開発しやすくしようと試みたあき先生。その過程で誕生したのが『かすみ』でした。音声データは声優にお願いして学習データを用意したそうです。
あき先生は、将来的には、各個人が AITuber を所有してインターネット空間上で AITuber 同士がコミュニケーションを取り、自分で好きなようにカスタマイズできる世界を夢見ています。『かすみ』もその一助となればとあき先生は考えてはいますが、『しずく』に対してなんだか浮気しているように感じてしまい(笑)、まずは『しずく』のロードマップを完結させることに注力しているとのこと。今後『かすみ』の活躍にも期待ですね。
<弟さんはNYUで音楽の研究>
『しずく』の配信で使うエンディング曲などの作曲はあき先生の弟さんが担当とのこと。弟さんはニューヨーク大学(NYU)で音楽、主にパーカッションなどを研究されているそうです。家族の連携もあっての『しずく』の配信ですね。
<「Stream Diffusion」開発>
『しずく』の開発を進める中で、自分の技術力、ソフトエンジニアリングに限界を感じ始めたあき先生。また、せっかくアメリカにいるのだから、世界をリードする研究に飛び込みたいと思い、画像生成モデルの研究にのめり込むことにしました。そこで開発に取り組んだのが「Stream Diffusion」です。 2023 年 11 月に開発し、論文発表や GitHub 上での公開に至りました。
「Stream Diffusion」はリアルタイムに画像を生成する AI ツールです。目指したのはよりインタラクティブな生成ツールでした。 1 秒間に 40 枚の画像を変換するようにしており、評価は上々。 GitHub 上での評価もまもなく 1 万スターに届くくらいだそうです。
「Stream Diffusion」のコミュニティの方々による開発も熱く、さまざまなデモ作品が公開されています。音波に合わせて画像が変化していく、新しいカタチの音楽のビジュアライザーや、 VR 空間上に鏡を作った人など、さまざまな作品を紹介しました。
<Meta AIでのインターンと今後の発表>
「Stream Diffusion」のヒットを受けて、あき先生は Meta 社でもインターンとして働くことに。そこでは動画生成 AI に関する研究に取り組みました。未発表の案件のため、詳細はお話しできないとのこと。この研究はアバターへの応用が期待されるもので、モデリング不要でリアルタイムにアバターを生成できる可能性があるようです。
最終的にあき先生が目指したいのは、魅力的なAIキャラクターの IP だそうです。海外発の AI キャラクターはいるものの、日本発の AI キャラクターはまだ一般に広がるまでの IP はないのが現状です。 AI キャラクターは技術だけでなくコンテンツ、ストーリー作りが大切だと考えているあき先生。リスナーがともに育てていくキャラクターを理想としているそうです。
また、現在の AI キャラクターに足りないものは「情報」だとも語ります。 VR 空間内に存在するキャラクターよりも AR で現実に合成されたキャラクターのほうが、より周りの現実の情報が伝わってきます。このように現実の情報をリアルタイムに取り入れながらキャラクターが育っていくのを目指したいということのようです。
他にもユーザのパーソナライゼーションも大切だと考えているあき先生。現在の AI キャラクターはプロンプトでのカスタマイズはできても、もっと根本にあるモデルのカスタマイズまでは実現できていません。そういったところを実現し、ユーザ一人ひとりごとにパーソナライズされたキャラクターの生成がエンタメとしても技術としても必要だろう、とあき先生は説明しました。
今後の AI キャラクターの発展にとてもワクワクするお話でしたね。
あき先生による発表のあとは、あき先生としらいはかせによる対談が行われました。対談では、 AITuber の可能性とインタラクティブ技術の未来について、熱い議論が交わされました。
<二人のキャリアと近年のAI研究環境>
改めて、しらいはかせから「『しずく』を開発した頃のあき先生は何者だったんですか?」と問いかけました。
あき先生は、 UC バークレーの学生として自動運転の研究をしていたものの、研究室内でいろんなことがあって研究が楽しくなかったと言います。そのときに、今の研究以外のことをやりたいと思い、 ChatGPT に触れてみたところ「これ本当にこんなにできるの?」とびっくりすると同時に、もう作りたいっていう欲求がどんどん出てきて、一気に創作意欲が爆発して短期間で一気に『しずく』を作り上げたとのこと。これが 2023 年の出来事でした。
その頃のしらいはかせはと言うと、研究所でグラフィックスに関する研究をしていたと語ります。 2022 年 8 月の Stable Diffusion の登場を受けて、生成 AI の波が来ると予感。その当時の AI 技術はオープンソース化されていませんでした。 MidJourney の登場でようやく誰でも AI を使える環境になり、画像生成をしていたそうです。その後に Stable Diffusion がオープンとなり、 Stability AI と 4 社が集まってオープンソースとして各社 AI ツールをリリースし、今のように AI がさまざまな活用が進められる世界となりました。しらいはかせは「世界はもう完全にもう溶けてなくなった瞬間ですね」と話します。
AI 関連の研究環境はとにかくスピードが速いと二人は言います。 3 ヶ月単位で動かないとアメリカや中国がその研究テーマに取り組む可能性があるほか、研究背景にある情報などもすぐにアップデートされていくため、数年後までの研究計画を立てて研究に取り組む学生にとっては可哀想な状況にあるようです。
AI 関連の研究は、その進展のスピードから突然プロジェクトが終了することも。その一つの救う方法としてオープンソースとして公開することが増えている、とあき先生は言います。また、 3 ヶ月以内に学会や論文投稿で発表しておくように学生に指導するのが大切なことであり、最終的にはとにかくオープンソースとして公開する。指導者はそういう指導をすることが大切なのだと、ここ5年の間でしらいはかせは学んだと話しました。
< Meta 社のAI研究のスピードとリソース>
話は Meta 社を例に弾んでいきます。 Meta 社の研究部門では、リアリティラボにおいて多くの分野で研究が行われており、 SNS やゲーム配信に関連する研究が行われているそうです。特に、ゲーム配信者の行動やコメントの分析に関する研究成果は非常に価値があるものの、後続の研究が続かないとのこと。その理由は、研究が優れすぎて他の人が同じことを行えなかったり、研究成果が事業に活用されるあまり、論文として公開されないことにある、としらいはかせは話します。
Meta 社では、プロジェクトごとに試行錯誤を行っていますが、必ずしもすべてが成功するわけではありません。しかし、 Meta 社全体で見れば、多くのプロジェクトが成果を上げています。また、 Meta 社全体で見ると、リスクを取ることは可能で、スタートアップが動きやすい状況もあるという話がされていました。
ここで、しらいはかせが「GPU のメモリってどれぐらいのものを彼らは使える?」とあき先生に尋ねました。プロジェクトによっては NVIDIA の生成 AI 向け GPU である H100 が 6,000 台使われているとあき先生は答えました。これにはしらいはかせも「 1 台買うのも大変なのに!」とびっくり!
この記事の続きはこちらから https://note.com/aicu/n/n630716c8206f
Originally published at https://note.com on Jan 23, 2025.