「ZoomやGoogle Meetでの会議動画を、あとから文字起こししたい!」
──そんなニーズ、ありませんか?
今回の「サクリ!AIツール」では、Google Colab と OpenAI の最新モデル gpt-4o-mini-transcribe を活用し、オンライン会議を自動で書き起こすPythonツールを紹介します。AICU流の“つくる人をつくる”マインドで、「無料で」「自分で」作れる最強トランスクリプション(書き下し)ツールをあなたにお届けします。
🤖 なんで自分で作るの?
「文字起こしツールなんて、有料サービスがあるでしょ?」
確かにそうです。たとえば:
-
Otter.ai や Notta などの専用サービス(でも月額課金…)
-
Google Gemini による議事録生成(ただし英語対応優先、日本語は遅れがち…)
でも、自分でColabに書いて作るとどうなるか?
-
🔧 自分の用途にピッタリカスタマイズできる!
-
📁 ローカルやGoogle Driveの動画をそのまま処理可能!
-
🔐 会議の内容を外部の企業に渡さずに済む
-
📚 そして何より「つくる人」になる経験値が溜まる!
🚀 ツールの特徴
このツールは、 OpenAI APIを使用し、Google Colab 上で動作し、以下のような特徴を持っています:
特徴
🎞️ ZoomやMeet録画を読み込みGoogle Driveから直接.mp4を指定
✂️ 長時間ファイルを自動分割、10分(600秒)ごとに自動セグメント化
🧠 OpenAI GPT-4oで高精度書き起こし、Whisper-1より賢く、速く、短い応答
📄 テキストで保存。.txtファイルとしてGoogle Driveに出力
✅ 処理後に整理。元ファイルを /done に移動し整理完了
🧪 どう使うの?
まず、OpenAIのAPIキーをご準備ください。
以下の手順で `OPENAI_API_KEY` を Colab に設定してください。

-
画面左のサイドバーにある「鍵マーク(🔐)」をクリック(「環境設定」→「シークレットを管理」)
-
「+ 新しいシークレットを追加」をクリック
-
以下のように入力して「保存」:
-
名前(Name): OPENAI_API_KEY
-
値(Value): sk-...` から始まるあなたのOpenAI APIキー
-
⚠️ これにより、コード内にハードコードせずに安全にAPIキーを扱うことができます。
📁 Google DriveにZoom録画(.mp4)をアップロード
Google Workspace Business Standardなどで契約した Meet会議の主催者なら、会議中の右下で「録画」を選ぶことでクラウド録画できます。
-
🔑 Colabメニューで OPENAI_API_KEY をシークレットに設定
-
▶️ ノートブックを実行
-
📝 自動で .txt 議事録が出力!
📋設定フォーム
-
PROMPT: 文字起こし時にAIへ与える指示(例:「逐語的に」「要約せずに」など)
-
DIR: Google Drive上の録画フォルダパス(例:/content/drive/MyDrive/Meet Recordings)最後のスラッシュは不要です
-
FILENAME: 対象となるファイル名(拡張子 .mp4 は省略可)
-
MOVE_TO_DONE: 処理後に元の .mp4 ファイルを done/ サブフォルダへ移動(デフォルト:True)
-
KEEP_MP3: 変換後の .mp3 を残すか(デフォルト:True)
-
SEGMENT_SECONDS: 音声分割の1チャンクの長さ(秒単位、デフォルト:600)
🎯 ファイル名が省略された場合は、フォルダ内の最初の .mp4 または拡張子なしファイルが自動的に選ばれます。
📌 ファイルが存在しない場合:
1. .mp4 拡張子を補って再確認
2. それでも見つからなければ FileNotFoundError を出して処理を停止します
処理が爆速!
AICUのイベント、ACT7の録画jで実験してみました。
5128秒、つまり85分、1時間半の番組の文字起こしが…なんと8分で終了!
☆Whisper-1だと1時間以上かかっていた処理です。


実行結果の例
https://note.com/api/v2/attachments/download/073ccffba9a424dab3593b78082f4426
セグメントはAPI仕様では最大で1500秒まで伸ばせますが、あまり長すぎると要約されてしまいます。いろいろチューニングは必要ですが、APIコストも含めて実用的なレベルあります。
またこのファイルをChatGPTなどにアップロードして、プロンプトを以下のようにすることでさらに活用できます。次のセクションで紹介します。
これはMeet会議の議事録です。「画像・動画生成AI ComfyUI マスターガイド」という書籍の話をしています。逐語的にテキストを起こしてください。 誤認しやすい用語がいくつかありますが、以下の点にご注意ください: - 「コンフィギュア」や「コンフィグ」といった誤認識がありえますが、正しくは「ComfyUI」です。 - IT/アイ・ティーではなく「AICU(アイキュー)」です。AICUは生成AIを活用する日本のメディア企業の名称です。 できるだけ日本語のニュアンスや発話者の意図を保持しつつ、聞き間違いのないよう丁寧に書き起こしてください。
🧰 どんな技術を使ってるの?
-
Google Colab:無料のGPU環境※+Google Drive連携
-
FFmpeg:動画→音声変換&音声分割
-
OpenAI API:gpt-4o-mini-transcribeによる日本語文字起こし
-
Python pathlib / time / subprocess
💲API費用はいくらかかる?
音声文字起こしにはOpenAIのAPI「GPT-4o-mini-transcribe」を使用しており、この処理はOpenAIのAPI費用がかかります。
記事作成時点(2025/5/15)では、上位の「gpt-4o-transcribe」は処理した音声1分あたり約0.006ドル(0.89円)、今回使用した「gpt-4o-mini-transcribe」は処理した音声1分あたり約0.003ドル(0.45円)です。1時間の動画を処理しても27円という計算です。
https://platform.openai.com/docs/pricing#transcription-and-speech-generation
🧠 「AIに任せる」と「自分でつくる」の差
AIが便利になればなるほど、自分で組み立てる力が差になります。AICUでは、「AIに使われる」側でなく、「AIを使いこなす」「つくる人をつくる」ことを支援していきます。
あなたも、会議の文字起こしから一歩踏み出して、「AI編集者」「AIエンジニア」の第一歩を踏み出してみませんか?
🔗 ノートブック配布
このノートブックはペイウォール側で公開しています
📥 AICU GitHubリポジトリ(文末)
📕 AICUマガジン Vol.12(近日発売)にコードとリポジトリへのURLを収録予定!
☆著作権は放棄していません
noteで記事を書きました!この投稿をリポストすると無料で記事を読むことができます!
— AICU 「つくる人をつくる」クリエイターのためのAIメディア (@AICUai) May 15, 2025
Zoom・Meet録画を自動で文字起こし!Colab × GPT-4oで作る自作爆速議事録ツール! | AICU Japan @AICUai #note https://t.co/qtoeBtOeLI
—
この記事の続きはこちらから https://note.com/aicu/n/n239d9f47b1a1
Originally published at note.com/aicu on May 15, 2025.
Comments