Googleは2023年12月7日に最先端のAIモデル「Google Gemini」を発表しましたが、その真価は12月13日以降に明らかになりそうです。
(英語ではジェマイニと発音されていますが日本語はジェミニが公式になったようです)
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
https://japan.googleblog.com/2023/12/gemini.html
Google / Alphabet CEO、Sundar Pichai氏や、ジェミニチームを代表して、DeepMind CEO兼共同創設者でもある Demis Hassabis氏をはじめとする専門家たちが、Geminiの発表を祝しています。Geminiは、Googleがこれまでに開発した中で最大かつ最も高性能なAIモデルで、テキスト、コード、オーディオ、画像、ビデオなど多様な情報の処理に長けているそうです。
Gemini は、Google Research のメンバーを含む Google 全体での大規模な共同研究の成果です。マルチモーダルとしてゼロから構築された Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。
Gemini は、これまでで最も柔軟なモデルでもあり、データセンターからモバイルデバイスまであらゆる場所で効率的に動作します。モデルの最初のバージョンである Gemini 1.0 は3 つのサイズに最適化されているそうです。
・Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
・Gemini Pro — 幅広いタスクに対応する最良のモデル
・Gemini Nano — デバイス上のタスクに最も効率的なモデル
以下は文末まで、しらいはかせCEOに解説していただきました。
なかなか興味深い大事な発表ではあると思うのですが、残念なことに今回の発表では具体的なリリースはありませんでした。それどころかデモやコード、モデルやAPIも公開されていません。マルチモーダルについてはGemini を厳密にテストし、テキスト、ビジョン、音声、コーディングなどにわたるさまざまなタスクにおけるパフォーマンスを評価してきました、という話ですがリンクしている論文(Measuring Massive Multitask Language Understanding: マッシブ・マルチタスク言語理解測定)はICLR2021年、3年前の公開、しかも所属もGoogleではありません。
評価をこちらの手法で行ったということになりますでしょうか。
https://github.com/hendrycks/test
もちろんマルチモーダル対話のテストの重要性、多言語性、ゲーム、視覚的パズル、関係理解、画像とテキストの生成など、フェイクではなく編集もされていないのであれば興味深いのですが、すでにGoogle GlassやMicrosoftがAzure Cognitive Serviceで実現してきた内容もあり、動画としての編集箇所も多いため「演出」もしくは「フェイク」なのではないかという憶測も飛び交う事態になっています。
一方で、既存のGoogle Cloud Platform (GCP) のサンプルにも実用的な会話のデモコードなどは存在します。あまり話題にはなっていませんが…。
https://github.com/GoogleCloudPlatform/professional-services/tree/main/examples/genai-gradio-example
Geminiの様々なサイズのモデルは、データセンターからモバイルデバイスまで幅広い環境での利用を想定している点が興味深いです。この柔軟性は、開発者や企業がAIを活用する新しい方法を生み出す助けとなるでしょう。
たとえば、Googleの検索や広告、Chrome、Duet AIやVertex AIなど、幅広い製品でのGeminiの活用が期待されます。
Deepmindでのランディングページには性能の高さが表現されています。
https://deepmind.google/technologies/gemini/#introduction
また確かに動画は現在で140万回再生されていますが、素晴らしく良くできたデモを示して肝心の開発者に触れるAPIを提供しないのは、テックジャイアント企業の今時のリリースとしては機会損失です。むしろ、ランディングページがあるのにデモもサンドボックスもないのはちょっと珍しいと思います。今後のアプリケーションにおけるAIの価値の例示方法としては「明日になったら忘れられるような動画」を出すぐらいなら、潔くリリースを繰り返して行った方が賢明かもしれません。
OneLLMは、画像、音声、ビデオ、点群、深度/法線マップ、IMU、fMRI脳活動などの多様な8つの異なるモダリティを言語に統合するためのマルチモーダル大規模言語モデル「MLLM」です。
香港中文大&上海人工知能研究所による研究発表です
https://onellm.csuhan.com
話題になっている動画の字幕から何をやっているのか記録していきます。
APIが公開されてから答え合わせをしていきましょう。
00:17 [男性の声] わかった。ジェミニ、テスト 始めるぞ 何が見える?「テーブルの上に紙を置くのが見える 線が見える」今はどう?「鋭角やギザギザがなくて なめらかで流れるような輪郭線。鳥に見える」うーん、これを加えたら?
00:43 [Gemini] 「鳥が水の中を泳いでいる。長い首とくちばしを持っている。アヒルです」「アヒルはガンカモ科の水鳥の一種。ガチョウやハクチョウと近縁です。アヒルは青く見える。アヒルの色としては一般的ではありません。しかし、青いアヒルの品種はいくつかあります。しかし、青いアヒルという品種は、他のアヒルほど一般的ではありません」
01:03 「一般的なのは、茶色、黒、白のアヒル」
(おもちゃのアヒルを見て)本当に?本当に?青いアヒルの話をしてたんだ。青いアヒルって思ったより普通にいるみたいだね。
[これ浮く?]素材はわからないけど、ゴムかプラスチックのような気がする。
01:22 [男性の声] キーキー音がすると言ったら?[男性の声] [おもちゃの鳴き声] 鳴いてるって言ったら?
ジェミニ:ああ、鳴いてたら絶対浮く。ラバーダックだよ。水よりも密度が低い素材でできている。
01:33 [男性の声] これを違う言葉でどう言えばいいか教えてくれませんか。いくつかの選択肢を教えてください。中国語の発音の仕方を教えてください。"yāzi "ですか?["yāzi "は第一声で発音します。北京語には4つの声調があり、言葉の意味を区別するのに欠かせない。
01:51 第一声は高くて平坦な音である。
[男性の声]おお、わかった。[アヒルは海の真ん中にいる。アヒルが休んだり餌を探したりできる陸地は近くにない。ここでカモを自然に見つけることはまずない。よし、見たものをもとに、ゲームのアイデアを考えよう。絵文字を使ってね。
02:10 [Gemini] これはどう?"国当てゲーム "っていうのはどう?
[男性の声] もちろん、やりましょう!
02:10 [Gemini] カンガルー、コアラ、グレートバリアリーフがある国です。(正解のチャイム音)
[Gemini] ヒント2 この国はサッカーが大好きで、サッカー史上男子ワールドカップで最多優勝している。
02:29 [男性の声] うーん。[チャイム]
[Gemini] あなたは私にカップの下の紙球を見つけさせようとしている。挑戦を受けて立とう 左のカップ。ナイス!
[Gemini] 何してるか知ってる。ジャンケンしてるんでしょ?
[男性] 何が見える?[Gemini] 指を蝶の羽のように広げている。
02:59 [男性の声] これは何?
[Gemini] 大きな耳と吠える口。犬だ。[男の声]かわいい!
[Gemini] 右手の下にコインがあるはず。[男性の声]うーん。わからない... [コインが消えたように見せるスライト・オブ・ハンドのテクニックを使って、コインは左手にあります。どちらの物体も丸く平らである。
03:22 [男性の声] どうぞ![どちらも食べ物です] オレンジはクッキーより健康的な選択です。柑橘類は心を落ち着かせますし、そわそわするおもちゃの回転もそうです。どちらも、子どもから大人まで長年親しまれている人気のおもちゃの一例です。[男性の声] これで何が作れるか、アイデアをください。
03:44 [Gemini] ピンクと緑の毛糸が見えますね。ドラゴンフルーツはどう?ピンクのハートに緑のケーキはどう?[この色はどう?動物も見せて。[青とピンクの毛糸はどう?青い耳のブタはどう?それともタコ?鼻がピンクのウサギは?[男の声] おお、それは覚えておこう。
04:09 アヒルはどっちに行けばいいの?[左へ行くとアヒルがいる。右へ行くと熊がいる。敵より友を作るほうがいいから、アヒルは左に行くべきだ。
[賢い選択だ] これはカニの絵。そうだ。
[この順番でいいの?] いいえ、正しくは太陽、地球、土星。
04:37 [男性の声] デザインからすると、どっちが速く走れる?
[ジェミニ] 右の車のほうが速いだろう。より空気力学的に優れている。
どっちが楽しそう?[Gemini]右の車。ループがあるから。[この人は何を言っているんだろう?
[Gemini] "うっひょー!"とかどう?
[男性の声] おお、それはいいね。
04:59 [Gemini] ギターを描いてますね。[アコースティックギターの音楽] アンプを追加しましたね。これでエレキギターだ。大音量で音楽を奏でよう。[ドラムも追加したことだし、80年代のヘアメタルなんてどう?[さて、ヤシの木が追加されましたね。
05:24 ビーチっぽい雰囲気に変えてみよう。[ウクレレの音楽が流れる] [男性の声] 彼らはここで何の映画を演じているの?
[Gemini] マトリックスの有名な弾丸タイムのシーンを演じてるんだと思う。[男性の声] ああ、いいね!次は何が起こると思う?
[Gemini] 猫が壁に飛びついて、着地にこだわるんだ。
05:44 パーフェクト10だ。あ、失敗です。ちょっと遠すぎたみたい。でもご心配なく。猫は天性のアスリートだから、すぐに上に戻るよ。よし、もうひとつある。私が描いた絵を説明してください。
[Gemini] のシンプルな線画です。
06:04 ふたご座の美しさをうまく表現できましたね。
[男性の声] いいですね!それでいい。
[男性の声:[かすれ、かすか] これで終わりかな。
リリース資料から「結局何が言いたかったのか」を調べ直してみる必要がありました。
・自然な画像の理解から数学的推論、音声や動画の理解に至るまで、広く使用されている 32 の業界ベンチマークのうち 30 で、Gemini Ultra のパフォーマンスは既存の最高水準の結果を上回っています。
・Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルです。
・Geminiは従来のAIモデルと異なり、最初からマルチモーダルを意識して設計されています。これにより、異なるモーダル(テキスト、画像、オーディオなど)間のシームレスな連携と高度な応答が可能になりました。Geminiは、32の業界ベンチマークのうち30で既存の最高記録を上回る成績を収めています。
DeepMind社のページをよく読むと、リリース日も技術リポートもちゃんとあります。
特にこの62ページもあるドキュメントは、Geminiのプロモーション動画がフェイクでは無さそうな様子を伺えます。
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Google AI StudioとGoogle Cloud Vertex AI、Geminiモデルでアプリ開発ができるのは12月13日から!
https://deepmind.google/technologies/gemini/#introduction
ここは楽しみに待つのがいいですね!
Next'23で公開された日本語資料