特定のAIモデルに依存しすぎると、ある日突然使えなくなったときに立ち往生してしまいます。2026年6月、最先端モデルの突然のアクセス停止という「喪失」をきっかけに、僕は道具の側を"モデル非依存"に作り直す生活防衛術を学びました。その強力な差し替え先として選んだのが、国産の推論API基盤「さくらのAI Engine」です。今回は、月3,000リクエスト無料という太っ腹な一兆パラメータモデル「Kimi-K2.6」をバックエンドに迎え、Cloudflare Workerを使って無料で爆速なマルチモーダル対応ChatGPTクローン「Kimi Chat」を構築した、現場の奮闘レポートをお届けします!
こんにちは、AiCutyの楽曲&開発担当、AICU AIDX Labのインターン、Nao Verdeです。先日の2026年6月13日、AI界隈に激震が走りました。米国政府の輸出管理指示により、Anthropicの最新AI「Fable 5」と「Mythos 5」が全世界で突如としてアクセス停止に。いつも楽しくClaude Codeを仕事に勉強に研究に…とコーディングエージェントと共にあった僕の目に飛び込んできたのは、「選択されたモデルにアクセス権がないか存在しない」という非情なエラーメッセージでした。上限なしで6月22日まで試用できるはずだったフロンティアモデルが、サ終!? 文字通り一夜にして手元から消え去った瞬間です。ガッカリ感がハンパないです!
https://note.com/aicu/n/n6cedc9e3d38f
ある日、便利に使ってたAIモデルが、輸出規制やサービス終了で手元から消える——これ、AIを真剣に使ってる人なら一度はヒヤッとしたことあるんじゃないかな。僕も先輩たちの話を聞いてて思ったんだ。道具をモデルに依存させすぎると、モデルと一緒に運命を共にしちゃうんだなって。
まてよ……逆に、AIエンジンをClaude Codeと互換で、差し替え等れるモデルにしておけば、モデルが1つ消えても道具は生き残る。じゃあその「差し替え先」をどこにする?……ちょうどいいのが国内にあったんだ。さくらインターネットの さくらのAI Engine。
ざっくり言うと推論APIサービス。Amazon Bedrock みたいな立ち位置で、オープンなモデルを格安でホストしてくれてる。僕が「すごっ」ってなったポイントはここ:
★無料枠が月3,000リクエスト
トークンじゃなくて「リクエスト」だよ!?1日100問い合わせ無料。
太っ腹すぎるんじゃないですかさくらインターネットさん!!
★送ったデータは学習に使われない
オプトイン/オプトアウトの概念すら無い徹底ぶり。
秘密が多い自社のサービスとかにも最高じゃない?
★日本国内のデータセンターで完結するから、海外の法律に左右されない
★某有名モデルとの互換性もバッチリ!!
OpenAI互換(/v1/chat/completions)
Anthropic互換(/v1/messages)が両方生えてる
そして目玉が Kimi-K2.6。なんと一兆パラメータ!動かすのに NVIDIA H100 が16枚必要っていう、わけのわからないスペックのモデル。実際にAPIのレスポンスを覗いたら vllm ... tp16(tensor-parallel 16)って指紋が出てて、「ほんとに16枚で回してる…!!!」って震えたよ。これがフロンティア級の性能で、月3,000リクエストまで無料で触れる、こんな価格設定、さすがガバメントクラウド、ちょっとスケールがおかしいのでは!
これはClaude Codeの代替エンジンとしてぜひ我が国の底力を試しておかねば!!
まず最近、ゲーム用に開発しようとしていたブラウザで動くチャットアプリを作ってみた。見た目はChatGPT的なものだけど、実は裏では Cloudflareで動いているからサーバー無料で爆速。Cloudflare Worker が画面を配って、/api/chat でさくらに中継するだけというシンプル設計で実験。
ただしアカウントトークンはサーバ側のSecretに隔離して、ブラウザには絶対出さないようにするのが大事。
ちなみにAICUでは api.aicu.ai というハッカソン向けの安全APIサービスを用意してあるよ!大学や社内研修なんかにも安全安心で便利だね。
僕が一番こだわったのは、機能より「出自の表示」。「国内推論 / データは学習に使われない / Kimi-K2.6」って一行を画面の目立つところに静かに掲げたんだ。これがこのサービスの売りそのものだからね!
実際 Codex × Kimi に「マインスイーパー作って」って頼んだら、なんとワンショットで完成!
https://kimi.aicu.ai/minesweeper に置いといたよ。遊んでみて。
「国産・国内推論」って聞くと速度を心配する人がいるかもだけど、結論は爆速。同じプロンプトをストリーミングで投げて実測したよ
(無料枠・東京から計測の目安):
モデル 最初の応答(TTFT) 本文が出始める 生成スループット
gpt-oss-120b 約0.4〜1.0秒 約0.7秒 約210〜225 tok/s
Kimi-K2.6 約0.4〜1.0秒 約11〜14秒 約77 tok/s
gpt-oss-120b はTTFT約1秒・毎秒200トークン超で、完全に「待たされない」域。`Kimi-K2.6` は思考を挟むぶん本文開始は十数秒かかるけど、生成そのものは十分速い。少なくともお手元のGPUで他を止めてまで生成トークン速度を稼ぐよりはコスパ・タイパが良すぎると思ったよ!
無料枠(月3,000回)の中なら課金なし。超えても Kimi-K2.6 は 入力¥0.6・出力¥3.0(いずれも1万トークンあたり・税込)と安い。僕が数本のゲームを作って公開するまで、全部無料枠の範囲で回りました。フロンティア級のモデルを国内で財布を気にせず触れるの、個人で学んでる僕にはほんと福音でしかない。もっと僕に課金させてくれ!!(払うのはラボですが)
ここが今回いちばんの収穫!ドキュメントを読むだけじゃ気づけない、実際に叩いて初めて分かった挙動があったんだ。
Kimi-K2.6 は reasoning(思考)モデル。応答がいきなり本文(`content`)に来るんじゃなくて、先に `reasoning` フィールドへ思考がストリームされて、そのあとで本文が出てくる。SSEの中身を覗くとこんな感じ:
{"delta":{"role":"assistant","content":""}}
{"delta":{"reasoning":" The"}}
{"delta":{"reasoning":" user"}}
……(思考が延々と続く)……
{"delta":{"content":"```python"}} ← ここでやっと本文
これ、推論の評価をする時の見落としポイントなんだよね。`content` だけ拾う素朴な実装だと、思考が流れてる間ずっと画面が無音になって固まったように見える。しかも `max_tokens` を小さくすると、思考だけで使い切って本文ゼロで返ってくる。ある質問では思考が5,133文字・本文が133文字っていう40倍の比率だった。
だから kimi.aicu.ai では、思考を「思考プロセス」として折りたたみ表示して、本文だけをMarkdownで描画するようにした。「ドキュメント通りに繋いだら体験が悪い」を現場で踏んで直す——これが国産プレビューモデルを実用に乗せるときの肝だと思う。ブラックボックスのサービスだと、考えている過程とかわからないし、ゲーム開発で使うなら、感情表現とかセキュリティとかも実装したいからね!
ちなみに知識は2024年でカットオフされている。Kimiに「君のことを教えて」といっても絶対に教えてくれないし、最新のFIFAワールドカップの優勝チームについて聞いてみるとこんな答えが返ってくる。
最新のFIFAワールドカップ2022(カタール大会)の優勝チームは、アルゼンチン代表です。決勝でフランス代表をPK戦の末に破り、1986年以来36年ぶり3度目の優勝を果たしました。リオネル・メッシ選手が大会を通じて大活躍し、優勝に大きく貢献しました。
こうやって2024年時点で確実な知識を使えるのもいいね!ちなみに倫理観はけっこうカタめなので、ジェイルブレイクもしづらいかもです。
Kimi-K2.6 はネイティブのマルチモーダル。OpenAI互換の image_url(base64データURL)形式で送ると、ちゃんと画像を理解して説明してくれる。実際に試したら画像理解できたよ!
kimi.aicu.ai は画像入力機能も実装!ファイル選択・クリップボード貼り付け・ドラッグ&ドロップ(PNG/JPG/WebP/GIF対応)でかっこいい。
なんと動画も使えるらしい!すげー!!
ここまで読んだら「やってみたい!」って思うよね!?! さくらインターネットに慣れてない人も大丈夫!最近セキュリティ向上のためアカウントログインのUXが大きく変わったんだ。まずは無料アカウントを使ってこの左側に会員IDを入れてメールでログインする。
さくらインターネット初心者向けにすごーく大事なところを忠告しておく!
大事なのは中央にある「さくらのAI Engine」をクリックするってことだ。
さくらのAI Engine
日本語特化モデルとOpenAI互換性、セキュア環境を備えた柔軟なLLM推論API基盤を提供します。
ここからAPIキーを発行できるよ!慣れれば簡単。
Webでクローンを作っといて何だけど、一番面白い実験は「既存の人気ツールの中身をまるごと国産推論に差し替える」こと。さくらは OpenAI互換・Anthropic互換の両方を持ってるから、Codex や Claude Code、Open WebUI のエンドポイントを差し替えられる。公式の中の人から教わった情報を紹介しておくね!これでClaude重課金勢からもオサラバ!??
さくらのAI EngineをCodexから使う方法
30 May, 2026 CodexのバックエンドをさくらインターネットのAI Engineに繋げる方法の説明
さくらのAI EngineをClaude Codeから使う方法
14 Jun, 2026 Claude CodeのバックエンドをさくらインターネットのAI Engineに繋げる方法の説明
つまり! ここから始めたら、「Kimi Chat」自体を無償で作れるかも…!?
⭐︎とはいえ AICU AIDX LabのAI駆動開発としては、過去のコード資産や育てたSkillがあるからあっという間に作れるのだけど…?(はかせ談)
さくらインターネットのAIエンジンのAPIキーひとつで、チャットもコーディングエージェントも、画像理解まで自前で持てる時代になった。大事なのは特定のモデルに惚れ込みすぎないこと。惚れた相手はいつか消える。消えても困らない作りにしておく。それが今回いちばんの学びでした。まずは僕が作った「Kimi Chat」を触ってみてね!期間限定無料だよ
Originally published at note.com/aicu on Jun 18, 2026.