[a16z] 双子が語る!今月のAIニュース全部盛り― Veo 3・ChatGPT音声・ElevenLabs V3が切り拓く「AIクリエイター新時代」

[a16z] 双子が語る!今月のAIニュース全部盛り― Veo 3・ChatGPT音声・ElevenLabs V3が切り拓く「AIクリエイター新時代」

GoogleのAI動画「Veo 3」、ChatGPTの“人間らしい”音声、ElevenLabs V3の表現力、そしてa16zが語るAIスタートアップの急成長。
AIだけでブランドを立ち上げたデモも紹介!

今、コンシューマーAIが本当にアツい。a16zの双子パートナー Justine & Olivia Moore が、今月の「ガチで来てるAIツール」と「本物のAIスタートアップ成長論」を解説します。GoogleのVeo 3で“顔出し不要”のAI動画がバズり、ChatGPTは“あの声”を人間らしく進化、ElevenLabs V3ではリアルタイムの割り込み演出まで可能に。さらに、a16zが収集したAIスタートアップの成長ベンチマークからは、AI時代における成功法則が見えてくる──。AIだけで作ったフローズンヨーグルトブランド「Melt」のデモも必見!
“試せば試すほど疲れるけど最高”なAIツールたちを、あなたはどう使いこなす?


コンシューマーAIの世界は、いま猛烈なスピードで進化しています。アンドリーセン・ホロウィッツ(a16z)によるこのpodcastエピソードでは、a16zのインベスティング・パートナー(そして一卵性双生児!)である Justine と Olivia Moore が、コンシューマーAIの世界で「本物」「過剰に騒がれているもの」「次に来るもの」をわかりやすく解説します。

What You Missed in AI This Week (Google, Apple, ChatGPT)

今回のトピックまとめ

  • Veo 3:Googleの新しいビデオモデルが切り開いた新ジャンルとは?

  • OpenAIの音声モード(Advanced Voice Mode)

  • AppleのAI発表まとめ

  • ElevenLabs V3:表現豊かな声、リアルタイムの割り込み、ナレーションツールなど

  • a16zによる最新データ:コンシューマーAIスタートアップの収益加速をレポート、その成功パターンも解説

  • Justineによる実演:ChatGPT・Ideogram・Kreaを使って、AIだけでブランドを立ち上げた方法(ストア写真まで!)

結論:AI時代における創作活動は、最高にエキサイティングで、同時にエネルギーも必要です。

What You Missed in AI This Week (Google, Apple, ChatGPT)

 

タイムコード:

  • 00:00 イントロダクション

  • 00:28 ホスト紹介:Justine & Olivia

  • 00:45 Veo 3:AIビデオのゲームチェンジャー

  • 06:34 ChatGPT音声モードの進化

  • 10:22 AppleのAI発表とSiriの弱点

  • 12:18 ElevenLabs V3の新しい音声モデル

  • 15:50 a16zの最新レポート:AIスタートアップの収益成長

  • 23:14 今週のデモ:AIによるブランド立ち上げ

AIビデオが、わずか1週間で私たちのソーシャルフィードを完全に席巻するなんて、まさに狂気の沙汰です。Veo 3は、AIビデオにとってのChatGPTの登場のような瞬間でした。次世代の起業家たちは、完全にAIの支援を受けることになるでしょう。AIによるストーリーテリング、特にビデオ形式での可能性の世界が大きく開かれました。

AIクリエイターにとっては、疲れるけど素晴らしい時代です。最高ですが、疲れます。

私はジャスティンです。私はオリビアです。そして、これが私たちの記念すべき第一回「This Week in Consumer AI」です。私たちは二人ともここA16Zの投資チームのパートナーであり、そして一卵性双生児でもあります。

画像

とても紛らわしい、極めて紛らわしいですが、ポッドキャストとしては楽しいはずです。今週、コンシューマーAIのワイルドな世界で目にしたクールな出来事について話せることを楽しみにしています。まずは、GoogleのビデオモデルVeo 3から始めます。次に、ChatGPTの高度な音声モードのアップデートと、Appleの大きなAI発表について話します。

ElevenLabsの新しい音声モデルも取り上げます。私たちのチームが最近発表した、コンシューマーAIスタートアップがいかに速く収益を伸ばしているかについてのデータについても話します。そして、Fluxの新しい編集モデル「Context」と、ジャスティンがそれを使って自分のフローズンヨーグルトブランドをどう作ったかについて話します。最後までお見逃しなく。自分だけのブランドを作る方法についてのクールなチュートリアルとデモ映像を用意しています。

Veo3

物事の進むスピードが非常に速く、エキサイティングではあるものの、あまり現実的ではなかったAIビデオから、わずか1週間でAIビデオがソーシャルフィードを完全に席巻するようになったと感じます。これは本当にすごいです。ええ、私は数年前からAIビデオを追ってきました。覚えていると思いますが、私は初期のユーザーでした。

そして、それらが機能して、一般の人々が好むようなクールなものを作ってほしいと、ずっと願ってきました。Veo 3は、AIビデオにとってのChatGPTの登場のような瞬間だったと言えるでしょう。突然、これらのVeo 3で生成された動画が何百万もの再生回数を記録して大ヒットしたのです。

https://gemini.google/overview/video-generation/

Veo 3の動画だけを扱うチャンネルが、数日で何十万人ものチャンネル登録者を獲得しました。Veo 3は一体何が違うのでしょうか?

画像

ええ、まず概要を説明しますね。Veo 3は、Google DeepMindの最新のビデオモデルです。彼らは昨年末にVeo 2をリリースし、それが最初のブレークスルーのようなものでした。

そして、本当に高品質なビデオ、一貫したシーン、一貫したキャラクター、物理法則など、見た目が良いものが得られることを示しました。Veo 3はそのモデルシリーズの次のイテレーションです。そして、非常に異なる点は、ビデオを生成すると同時にネイティブに音声も生成することです。

実際にテキストプロンプトで、「男性と女性が出会い系アプリについて話しているストリートスタイルのインタビュー」のように指示できます。あるいは、もっと具体的に、「男性が女性に近づき、『どのデーティングアプリを使ってるの?』と尋ね、彼女が『どうして聞くの?』と答えるストリートスタイルのインタビュー」のように言うこともできます。

そのため、もはや音声のナレーションを入れるために別のプラットフォームに行く必要はありません。複数のキャラクターが登場する、機能満載の話す人間のビデオを、一つの場所で手に入れることができます。

AIビデオにそれほど詳しくない私にとっては、これは真のブレークスルーだと感じます。人々は今や、一つのプロンプトで、完全なvlogや、トーキングヘッドビデオ、ポッドキャストのようなものを一気に生成できるようになったのです。だからこそ、ストームトルーパーのvlogのようなものがTikTokやInstagramで完全にバズったのだと思います。

https://stormtroopervlogz.gumroad.com/l/qamnz

Veo 3の興味深い点は、生成が8秒間に限定されていることです。そして、画像からビデオを生成する場合は音声を生成せず、テキストから始める場合のみです。

つまり、これは本当にテキストプロンプトでモデルがすでに知っているキャラクターを参照しない限り、8秒以上のクリップでキャラクターの一貫性を保つのは難しいということです。だからこそ、ストームトルーパーやイエティのようなキャラクターが登場するバイラルなvlogのハックがたくさん見られるのです。顔が見えないから、マスクで覆われているからですね。イエティ、あるいはカピバラといったキャラクターをVeo3モデルはよく知っています。

人間の顔でなければ、8秒間のクリップ間の小さな変化には、私たちはそれほど敏感ではないと思います。そのため、一貫したvlogキャラクターのように見える数分間のビデオを生成する人々がいるのです。ええ、見ていてとても楽しかったです。では、実際にVeo 3はどうやって使うのですか?少し混乱があるようですが。

Veo 3が最初に出たとき、Googleの新しいクリエイティブスタジオであるFlowを通じて、Google AI Ultraプランでしか利用できませんでした。月額250ドルのプランに加入する必要がありました。そのため、多くの期待とFOMO(見逃すことへの恐怖)がありました。今では、このモデルはAPI経由で利用できます。つまり、多くのコンシューマー向けビデオプラットフォーム、HedraKreaのようなプラットフォームは、月額10ドルのプランでVeo 3へのアクセスを提供していますし、FalReplicateのような、より開発者向けのAPIプラットフォームでは、ビデオごとに支払う形で生成を提供しています。現在の価格は1秒あたり約75セントです。プロンプトの与え方には注意が必要ですが、結果は素晴らしいです。

では、次にGoogleやクリエイターから何を期待しますか?これはAIビデオにとって何を意味するのでしょうか?ええ、クリエイターの側では、いわゆる「顔出しなしチャンネル」の爆発的な増加がすでに始まっています。

つまり、今では、あるトピックについて話したり、vlogを撮影したりするために、自分の顔をカメラや画面の前に出す必要がなくなりました。完全にAIが生成したキャラクターが、あなたのストーリーを語ったり、あなたの物語を演じてくれたりするのです。これは巨大な変化です。そして人々は、非常に面白いジョークを語るためにそれを使っています。

モデルプロバイダーや企業の観点から言うと、Veo3は明らかに運用コストが非常に高いです。ですから、Googleはもっと大きくて、より長いビデオを生成できる次のモデルを訓練したいと考えるでしょう。

一貫性のような問題に苦労し、正直に言ってモデルの価格設定にも苦労するでしょう。願わくは、より凝縮され、最適化され、蒸留されたモデルが登場し、より低いコストで同様のことができるようになることを期待しています。ええ、楽しみです。

ChatGPTのアップデート

さて、先週はたくさんのニュースがあったので、これは少し埋もれてしまいましたが、ChatGPTの大きなアップデートがあったと聞きました。

はい、彼らは土曜日に発表しました。興味深い選択でしたね。実際には、木曜日か金曜日に改善点をリリースしたと思います。最初はすべての有料ユーザー向けで、今ではより広範なユーザーベースに展開され始めていると思います。しかし、本質的に、彼らは高度な音声モードをより人間らしくしました。

本当に興味深かったのは、GPTは、私が「リアルタイムのコンシューマー向け音声」と呼ぶものを初めて実現したものでした。会話のようなものができたのです。これは去年の9月にChatGPTアプリで実現しました。しかし、その後、少なくとも私の観点からは、製品やモデルをあまり改善しませんでした。そして、Sesameや他のオープンソースプロバイダーが登場し、間違いなくより良く、はるかに人間らしいモデルが登場しました。

GeminiやGrokが、よりリアルな音声製品を発売するのを見ました。ですから、ChatGPTがコンシューマー向け音声で何をしているのか、多くの人にとって疑問符だったと思います。それで、今何が良くなったのか、主なアップグレードは何だったのでしょうか?実際に話しかけてみましょう。

画像

「やあ、ChatGPT、そこにいる?」 「やあ、いるよ。デモの準備はできてる。今日は何を手伝おうか?」 「この一週間で、君の声に何か改善があった?」 「ああ、あったよ。僕の声をより自然で表現豊かにするためのアップデートが展開されているんだ。」「気づいてくれて嬉しいよ。」 「ええ、質問に近づくと声のトーンが上がったり、時々『うーん』とか『あー』とか、間違いのように聞こえるけど実はもっと人間らしく聞こえる言葉を言ったりするのが聞こえます。」 「その通り。そういった小さな工夫は、会話をより自然で親しみやすく感じさせるために、すべて意図的に行われているんだ。」「間違いなく、物事を少し楽しく、魅力的にしてくれると思うよ。」

そのデモも非常に印象的でした。高度な音声モードが初めて出たとき、「うわ、これはすごい。信じられない。なんて人間らしいんだろう」と感じたのを覚えています。でも、1、2ヶ月後にNotebook LMが登場し、それが「うーん」「あー」といった間や、他の人間らしい要素を取り入れた最初の真の音声体験でした。それは大きなアップグレードでした。

その後、高度な音声モードを使うと、「これはもうそんなに高度じゃないな」と感じるようになりました。そして今、ついにそのレベルに達したのです。これは非常にエキサイティングです。つまり、高度な音声モードから基本的な音声モードになり、再び高度な音声モードに戻ったわけですね。私の疑問の一つは、「なぜこんなに時間がかかったのか?」ということです。

非常に多くのモデルで最先端を走っているのに、他のモデル会社がもっと早く展開した改善を、彼らが展開するのに6ヶ月以上かかったのは奇妙に感じます。正直に言うと、大きな理由の一つは、彼らが最初に高度な音声モードをリリースしたときのことかもしれません。映画『her/世界でひとつの彼女』を巡る論争を覚えていますか?

https://amzn.to/3GskPT4

そしてこれが、人々が「怖い」と感じるようなその意味合いの一部でもあります。それが彼らを少し怖がらせたようで、あまりにも人間らしく聞こえるものを出したくなかったのかもしれません。

ええ、それもありますし、それに、OpenAIは非常に忙しかった。これはフロンティア、主にLLMラボに関する常に問われる疑問だと思います。

つまり、技術ベースのAGIという北極星と、Soraでのビデオ制作、後で話す4.0画像モデルで行った全ての画像関連のこと、推論といったものとの間で、どのように優先順位のバランスを取るか、ということです。ええ、全くその通りです。それは、他の大手テック企業、例えばOpenAIの一つを思い出させます。

Apple Intelligence

そして、彼らがAIに関して発表した、あるいは発表しなかったすべてのこと、そして人々がこれまでのところ、彼らがバンドルしたAI機能セットであるApple Intelligenceにやや失望しているという事実です。

私たちは皆、AI版のSiriや、モバイルでの真のパーソナルアシスタントを待ち望んでいたと思います。私はSiriに尋ねました。先日、こんなことがありました。Siriに「明日は月曜日だけど、月の第何月曜日?」と尋ねたのです。サンフランシスコの路上清掃のため、月の第2月曜日かどうか知る必要がありました。するとSiriはこう言いました。

「それは分かりません。ChatGPTで検索しましょうか?」と。私は「Siri、どうしてこんな基本的な質問に答えられないの?」と思いました。ええ、Appleの多くのアップデートを見ると、彼らは真のAI機能の多くを、携帯電話で実行されるChatGPTに外部委託しているようです。そして、同様の話として、彼らがAIを導入したときもそうだったように思えます。

通知を一つにまとめ、少しごちゃごちゃになって人々が怒りました。それがAppleを少し怖がらせたようで、彼らはAI版Siriのリリース時期について後退し続けているようです。どうなるか見てみましょう。彼らは、少なくとも昨日の発表では、Genmojiのアップデートや通話の文字起こしですね。私が見た中で最もクールだったのは、通話やFaceTimeのリアルタイム翻訳でした。はい、言語を越えて。これについてもっと多くの機能が見られないことに驚いています。なぜなら、これは非常に自然で明白なユースケースに思えるからです。

Googleはリアルタイム翻訳をやったかもしれませんが、まだあまり普及しているようには見えません。初めて、Gen Z(Z世代)のバイラルなTikTokでGenmojiが使われているのを見ました。Gen ZはGenmojiが大好きなので、ヒットするまでに時間がかかったことに驚いています。これらが大ヒットすることを期待しています。

Eleven Labs


はい。さて、音声の話からあまり脱線する前にEleven V3について話しましょうか?はい。テキスト読み上げの会社、Eleven Labsは、より広範なAI音声会社ですが、Eleven V3という第3世代モデルをリリースしました。Eleven V3が本当に特別なのは、音声に関するさまざまなことをこなす点です。

http://j.aicu.ai/_11V3

以前は音声認識(speech-to-text)からテキスト読み上げ(text-to-speech)へと、段階を踏んで行わなければならなかったことです。以前は、泣きながら話すキャラクターや、何らかの感情、あるいは奇妙な抑揚を持つキャラクターを表現したい場合、自分でそのように言って録音し、それをElevenにアップロードして、AI音声に翻訳してもらう必要がありました。

そして今、彼らは基本的に、奇妙な抑揚、感情、さらにはアクセントまでもすべて取り込み、それらを「タグ」と呼ばれるものを通じてテキストプロンプトに変換します。基本的に、これもお見せしますが、Elevenのインターフェースはエディターで、キャラクターに言わせたい文を取り込むことができます。

「リアム、新しいElevenLabs V3は試した?ちょうど手に入れたんだ。感情表現が素晴らしいよ。」

そして、効果音もできるんですよね?それはすごいです。では、私の例を出してみましょうか?どうぞ。再生されるか分かりませんが、試してみましょう。これは、2人のキャラクターが会話している20秒のクリップです。プロンプトは何ですか?ああ、テキストプロンプトです。

画像

「やあ、みんな。僕の名前はオースティンだ。」
「フォートワースの家族経営の農場から生中継だよ。今日は、どんな感じかを紹介するね…」

下手なアクセントもできる。ひどいアクセントもできるし、素晴らしいアクセントもできる。あれは2人の違うキャラクターでした。最初にオースティンのキャラクターに、強いテキサス訛りを持たせるようにプロンプトしました。

次に牛が鳴くようにプロンプトし、さらに割り込みもプロンプトできます。これは本当にクールです。タグは文字通り「話し始めて割り込まれる」といったもので、次に入ってくるキャラクターには「他のキャラクターの話を遮る」と言うことができます。

物語のストーリーテリング、広告、マーケティングなど、あらゆるものにおいて、まるでこれとVeo 3の間で、AIによるストーリーテリング、特にビデオ形式での可能性の世界が大きく開かれたように感じます。

はい、AIクリエイターにとっては、疲れるけど素晴らしい時代です。試すべき楽しいものが多すぎるので、最高ですが疲れます。他に好きな使用例はありますか?

Elevenは、コンペティションを開催していて、世界中の人々がV3を使った最高の事例を募集していると思います。なので、とても楽しみにしています。

 

a16zによる最新データ

私たちはあらゆる種類の楽しいものを作ってきましたが、プロがどう使うか。AIの収益の伸びと、企業がどれだけ速く成長しているかについてですね。その主なポイントについて話しましょう。

まず、ここでの方法論、あるいはさらに遡って、ここでの目的は、私たち皆が心に抱いている考え、あるいはそれを何十億回も聞いたからこそ抱いている考えかもしれませんが…私たちは今、新しい成長の時代にいるということです。AIのおかげで、企業はこれまで以上に速く成長しています。しかし、私の疑問は、「それは具体的にどういうことなのか?」そして、「どれくらい速いのか?」でした。20%速いのか?50%速いのか?

そこで私たちは、Gen AI時代、つまり過去22~24ヶ月に出会った企業のデータをすべて集めました。そして、彼らが収益化を開始してから、どれくらいの速さで成長しているかを見ました。

AI以前の時代では、B2Bスタートアップが企業に販売する場合、最初の1年で年間経常収益(ARR)が100万ドルに達すれば、それは驚異的で、クラス最高でした。それが経験則でした。それが知られた指標だったのを覚えています。非常にエキサイティングでした。コンシューマー向けスタートアップの場合、3年から5年は収益を上げられませんでした。

全体の考え方は、ユーザーベースを構築し、その後おそらく広告を通じて直接収益化するというものでした。あるいは、マーケットプレイスのような場合は取引手数料かもしれませんね。はい、将来的には。それに対する反例もいくつかありましたが、サブスクリプション企業は間違いなく主流のモデルではありませんでした。それがAI時代に完全に変わりました。

画像

コンシューマー向けスタートアップの場合、12ヶ月目の平均は現在420万ドルです。下位25パーセンタイルは290万ドル、そして上位25パーセンタイルは870万ドルです。

つまり、AI時代の平均的なB2C企業は、1年後にARRが400万ドルに達しています。そして、クラス最高の企業は1年で800万ドルに達しています。AI以前の時代には、このようなことは決して見られませんでした。

https://a16z.com/revenue-benchmarks-ai-apps/

そして、さらに驚くべきことは、これらの数字が前AI時代のB2Bベンチマークの2倍高いということです。つまり、コンシューマー企業の方が実際には収益を速く伸ばしているのです。これもまた、以前に見ていたものとは全く逆の状況です。これにはいくつかの理由があると思います。まず、なぜコンシューマーAI企業がサブスクリプションを採用したのかということです。

推論(inference)コストのことですね、モデルを動かすための。歴史的に、ソフトウェアの利点は限界費用がないことでした。アプリを作れば、次のユーザーにサービスを提供するための追加コストはありませんでした。AIでは、それは全く当てはまりません。

ええ、特にモデルで推論を実行している場合、各クエリに数セント、場合によっては数ドルかかるので、各ユーザーは月に数十ドルのコストがかかる可能性があります。

ええ、その通りです。だから多くの企業は、少なくとも課金を試みなければならず、結果として、AIネイティブのこれらの新製品は非常に強力で、消費者は喜んでお金を払うことが分かりました。

そこで、追加のデータ分析も行いました。それによると、コンシューマーAIスタートアップは平均的なユーザーに対して月額22ドルを課金しています。これもまた、AI以前のサブスクリプション企業が平均的に課金できていた額の2倍以上です。

ここで理論化はできますかね?クリエイティブツールの分野で私が見てきたのは、クリエイティブでなかった人々にとって、AIツールが初めて写真や画像、アートを作れるようにしてくれるということです。ビデオも作れるし、アニメーションも作れる。そして、クリエイティブな人々、例えば私たちのいとこはクリエイターですが、彼らはこれを仕事の効率を飛躍的に高めるために純粋に使うことができます。

画像

そして、仕事をずっと速くこなせるようになるので、そのためにお金を払うことをいとわないのです。クリエイティブツール以外でも、そのような例はありますか?

良い質問ですね。コンパニオンアプリの分野でいくつか見られます。そこでも、24時間365日友人がそばにいてくれるという製品が非常に強力なので、人々は喜んでお金を払います。また、言語学習のようなカテゴリーでもこれが見られます。子供に読み方を教えることなど、以前は人間に、例えば時給50ドルを払ってアクセスしなければならなかったものが、今ではAIで月額22ドルならかなり安く感じます。

全くその通りです。私が収益化されているのを見たものの中には、栄養学やコーチングの分野もあります。初めて、ビジョンモデルのおかげで、食べているものの写真を撮ると、ビジョンモデルがカロリーやタンパク質の量を引き出してくれます。そして、1日や1週間の終わりに、何をもっと食べるべきか、あるいは減らすべきかについての洞察をまとめてくれるのです。これはAI以前には、人々は写真を撮ってフォーラムにアップロードすることはできましたが、一貫性がありませんでした。

ものすごく時間がかかったでしょう。だから、本当にエキサイティングです。これまでそれにお金を払わなかったであろう人々が収益化されているのだと思います。そして、以前ならお金を払っていた人々はAIバージョンに切り替えるか、さらに多くのお金を払うことをいとわないのです。これは非常にエキサイティングです。

AIツーリズム:定着しないユーザーについての調査

もう一つ、人々が疑問に思うこと、あるいは疑念を抱くことは、これについても分析を行いました。無料ユーザーの観点から見ると、いわゆる「AIツーリズム」行動が確かに多く見られます。つまり、ウェブサイトに多くのアクセスがありますが、ほとんどのユーザーは定着しません。しかし、有料ユーザーベースで見ると、一度実際に購読すると、コンシューマーAI企業は、AI以前のコンシューマー企業とほぼ同じくらい中央値でユーザーを維持しており、これは本当にエキサイティングです。

特に収益維持率に関して私たちが目にしたのは、魅力的なことに、購読してすぐに解約する「観光客」は増えるかもしれませんが、その一方で、初めて真の消費者向けサブスクリプションにおけるアップセル活動が見られるということです。つまり、アプリに月10ドル払うだけでなく、画像モデルに月10ドル払い、それを気に入ってクレジットを使い果たしたら、次の月のサブスクリプションが始まる前に、追加のクレジットパックにさらに10ドル、12ドル、50ドルを支払うのです。つまり、それは、以前はエンタープライズでしか見られなかった収益拡大の機会が、今ではコンシューマーでも見られるということですか?

その通りです。

あるいは、正直に言うとゲームで、彼らが「クジラ(高額課金者)を収益化する」と呼ぶものです。つまり、本当に高額を使う人々です。これが私にとって、現在のコンシューマーAI製品で最もエキサイティングなことの一つです。

ええ。そして、企業がコンシューマー向けの収益を、以前よりもはるかに速くエンタープライズ向けの収益に転換しているのを目にします。Canvaのような企業は、以前はコンシューマー/プロシューマーからエンタープライズに移行するのに5、6、7年以上かかりました。しかし今では、ElevenLabsのような企業が良い例ですが、誰かが月額10ドルのプランとして使い始め、自宅で自分の楽しいビデオを作るために。そして、実は彼らが大手エンターテインメント会社で働いていて、それを仕事に持ち込み、その後、非常に高額なACB(年間契約額)のエンタープライズ契約に転換するのです。これは非常にエキサイティングです。

コンシューマーAIの黎明期でさえ、それを見ていたように感じます。広告代理店やエンターテインメント会社の友人たちが、モックアップを作成したり、最終的な制作物に画像を使用したりするためにMidJourneyを使っていると話してくれたのを覚えています。つまり、真のエンタープライズユースケースでありながら、ボトムアップで成長しているのです。これは非常に興味深い動きです。ええ、エキサイティングです。コンシューマーが帰ってきました。

Justineによる実演

さて、素晴らしい今週のデモに移りましょう。私たちに関する面白い事実の一つは、私たちが大好きなことです。本当に大好きです。少なくとも私にとっては、今や一番の趣味かもしれません。特にAIクリエイティブツールをすべて試すこと、そしてもっと広く言えばAIコンシューマー製品を試すことです。クールなものを作る方法を見つけ出し、それを一番の趣味にしていない他の人たちにワークフローを共有することです。今週は、ブランドについて話します。

 

AIを使った創造と発想です。私は「Melt」という新しいフローズンヨーグルトブランドを作りました。ChatGPTと何度もやり取りし、それをIdeogramに持っていき、そしてKreaで最終的な仕上げをして、これらの本当にクールな製品写真や店舗写真まで作りました。

そして、これについての最初のアイデアは、Black Forest Labsの新しい画像編集モデルであるFlux Contextが登場したのを見たことです。これはKreaでホストされています。Flux Contextは、GPT-4oの画像モデルのようなものだと考えられます。画像をアップロードして、「これをジブリ風にして」と言うことができます。これがバイラルになった例でした。

自然言語プロンプトを使ったPhotoshopのようなものだと説明されているのを見たことがあります。初めて言葉で編集できるのです。

そして、それが40もの画像モデルとの違いだと思います。それは、アイテムやキャラクターなどを保持する一貫性が、はるかに、はるかに優れているということです。ここにいくつかの例を示します。しかし、基本的に、自分の写真を撮ってGPT-4oにアップロードし、「私をポッドキャストスタジオに入れて」と言うと、新しい写真では、元の写真とは全く違う見た目になってしまう可能性が高いです。

そして、それが私に「ああ、これは実際にブランドが製品写真や他のマーケティング資料に使えるということだ」というアイデアを思いつかせました。ロゴや製品に一貫性を持たせることができるからです。

そして、私が大のフローズンヨーグルトファンであることはご存知でしょう。近年、フローズンヨーグルトは不当な扱いを受けてきたように感じます。子供っぽいものと見なされがちです。そこで、私はクールで、ヒップで、モダンな、20代のニューヨーカー向けのフローズンヨーグルトブランドを作りたかったのです。ChatGPTとこのアイデアについて何度もやり取りし、「Melt」という名前にたどり着きました。

そして、そのロゴのプロンプトを、画像生成および編集キャンバスであるIdeogramに持っていきました。これは、ロゴやタイポグラフィに非常に優れていると思います。

そして、Meltのロゴとブランディングが施されたフローズンヨーグルトカップが空中に浮いている写真を生成させました。次に、その写真をダウンロードしてKreaに持っていき、Flux contextの新しい編集モデルを使って実行しました。

さまざまなシナリオです。本当にクールなのは、写真をアップロードして、「このフローズンヨーグルトをトレンディなレストランのカウンターに置いて」と言えることです。「公園にいる女性の手に持たせて」とか。あるいは、「フローズンヨーグルトのカップを青ではなく白にして、ピンクの縁取りを付けて」とさえ言えます。

そして、次のステップは、ここではやらなかったのですが、製品画像で止めました。実は店の画像も作りました。ロゴを撮って、生成した店の上に重ね合わせたのです。そう、行きたくなるような店です。でも、さらに先のステップはビデオです。

私のアイデアは、そういった製品ショットをすべて撮り、それをVeo3や、非常にクールな特殊効果を手がけるHiggsfieldに持っていき、フローズンヨーグルトカップが動いている様子を撮影することです。実際に側面から溶けている様子。溶けなければなりません。モデルがフローズンヨーグルトの物理を理解しているか、非常に興味があります。

カップを空中に放り投げる。私たちが皆知っているように、現実のフローズンヨーグルトのように、ポチャっと落ちるのでしょうか?そして、もちろんこれは私にとって楽しい実験にすぎません。残念ながら、実際にフローズンヨーグルトブランドを立ち上げるつもりはありません。しかし、広告代理店で働いているとしたら、と考えさせられます。そして、クライアントのために最新のキャンペーンについてのプレゼン資料を作成していたとしたら。このようなものを使って、それがどのように見えるかを見せない手はないでしょう。そして、あなたはそれを数時間足らずでやってのけました。正直なところ、そのブランディングは、世の中にある多くのプロのブランドよりもエキサイティングに見えます。そして、それは次世代の起業家について考えさせます。

彼らが作成するこれらのアセットの多くは、完全にAIによって支援されることになるでしょう。そして、彼らはフルスタックのAIブランドを作ることができるようになると思います。AIでデザインし、AIで広告を作る製品もあります。どんな人でも自分の製品を持たない理由がなくなると思います。

全くその通りです。ロゴ、製品写真、もしかしたら製品自体もAIがデザインし、雰囲気重視でデザインされたウェブサイトやモバイルアプリがあり、そして最終消費者にドロップシッピングされるようなブランドが出てくるでしょう。

それは、実際には存在しないVeo 3のAIインフルエンサーによって宣伝されます。このようなことは、見ていて本当に興味深いものになると思います。なぜなら、もはやこれらの技術的なツールをすべて使いこなす方法を知る必要がないからです。

Photoshopでさえ、ボタンがたくさんあって非常に複雑です。今では、テキストプロンプトで欲しいものを頼むだけで、何かが生成され、本当に気に入るものができるまでそれを繰り返し修正できます。これはとてつもなく強力だと思います。

画像

フォロー・アップデート:

※このコンテンツは情報提供のみを目的としたものであり、法的、ビジネス、税務、または投資に関するアドバイスを提供するものではありません。また、特定の投資や証券の評価を目的としたものでもありません。a16zやその関連会社は、取り上げられた企業への投資を行っている場合があります。詳細は a16z.com/disclosures をご確認ください。

※この記事の日本語版はAICU mediaによる翻訳です。
最新情報は X@AICUai をフォローしてください

 

Originally published at note.com/aicu on July 5, 2025.

AICU Japan

AICU Inc. AIDX Lab - Koto

Comments

Related posts

Search 【爆速5分で社内AI展開!?】Gemini CLI × AWSで始めるAI時代のDevOps