トップに戻る
AIテレアポ 映像制作 Runway やってみた

AIテレアポを広めたくて、
AIだけでCM風広告を作ってみた話

2026.04.05|読了時間 約8分|

私たちRabona AIは「AIテレアポ」というサービスを提供している。AIが電話をかけて、営業のアポイントを取る。そういうサービスだ。

で、このサービスをもっと多くの人に知ってもらいたい。当然そう思う。でも映像制作を外注すると、見積もりを見て目を疑うような金額になる。正直に言うと、スタートアップにはキツい。

じゃあ、今あるAIツールを使って自分たちでどこまでできるのか。試してみよう。そう思い立って、約2時間格闘した記録がこの記事だ。

この記事で分かること

  • Runwayで映像素材を作るときのプロンプトのコツ
  • AI音声合成とElevenLabsを使ったナレーション・効果音の作り方
  • After EffectsのExtendScript (JSX) による編集自動化
  • 2時間やってみて分かった、AIだけでは完結しないリアルな話

AIだけでどこまでのCM映像が作れるのか?

とにかく、まずは見てほしい。細かい話はその後で。

※ 縦動画のため、スマートフォンでの視聴に最適化されています

完璧じゃない。それは自分たちが一番分かっている。でも、これを約2時間で作ったと言ったら、ちょっと驚かないだろうか。

Runway、AI音声合成、ElevenLabs、After Effects。これらのツールを組み合わせて、外注ゼロで作った。もちろんまだまだ改善の余地だらけだし、これからもっと良くしていきたい。でも「やってみたら意外とできた」というのが正直な感想だ。

ここからは、具体的にどうやって作ったのかを書いていく。

Runwayで良質な映像素材を作るには、どうプロンプトを書けばいいのか?

なぜ最初のプロンプトでは全然ダメだったのか?

映像素材の生成にはRunwayを使った。テキストのプロンプトから映像を生成してくれるツールだ。

最初は正直ナメていた。「Japanese office scene」みたいな雑なプロンプトを入れて、出てきた映像を見て愕然とした。なんというか、AIが作りましたという雰囲気が全開で、とても広告には使えない。やってみて分かったのだが、Runwayはプロンプトの書き方で出来が天と地ほど変わる。

効果的なプロンプトのコツは何か?

何十回も試行錯誤して、ようやく掴んだコツがいくつかある。

実際に使ったプロンプトの例を一つ挙げると、こんな感じだ。

Photorealistic cinematic Japanese TV commercial, set in Tokyo Japan, Shot on Sony

これだけで、かなりリアルなオフィスのシネマティック映像が出てくる。

Runwayの公式ブログでも、プロンプトエンジニアリングのベストプラクティスが公開されている。特にRunway Research Blogでは、映像生成モデルの特性や、より良い結果を得るためのテクニックが定期的に紹介されており、制作前に目を通しておくことを強くおすすめする。また、Runwayのコミュニティでは他のクリエイターのプロンプト例も共有されており、「他の人がどういう指示で良い映像を出しているか」を学ぶのに非常に参考になった。

どんなプロンプトを書くと失敗するのか?

逆に、絶対やってはいけない書き方もある。

A video about AI phone calls

こういう抽象的なプロンプトだと、本当に使えない映像になる。AIが何を描けばいいか分からないので、なんとなくそれっぽい、でも全然使えないものが出てくる。プロンプトは、映画の絵コンテを書くつもりで具体的に指定するのがコツだ。

CM用の音声とナレーションはどのAIで作るのが最適か?

ナレーションはどのAI音声合成で作ったのか?

映像ができたら、次はナレーションだ。ここではAI音声合成プラットフォームを使った。

やってみて分かったのだが、声のキャスティングが予想以上に重要だった。同じセリフでも、声が違うだけで映像の印象がガラッと変わる。最初に適当に選んだ声だと、どうしても「AIが喋ってます」感が出てしまって、CM感が薄れる。

最終的に落ち着いたのは、こういう使い分けだ。

ブランド名のコール部分はどう仕上げたのか?

映像の最後に「ラボーナ AI」というサービス名を読み上げるパートがある。ここは少しこだわった。1人の声だと印象が薄いので、声質の異なる複数の音声を重ねてみた。男性・女性、落ち着いたトーン・元気なトーンを混ぜることで、テレビCMでよく聞くあの「ブランド名コール」の厚みを再現した。

一人で読むのとは全然違う、厚みのあるサウンドになる。地味なテクニックだけど、CM感が一気に出る。

効果音はどう生成するのが効率的か?

映像のリアリティを決めるのは、実はナレーションよりも環境音だったりする。無音の映像にナレーションだけ載せると、どうしても安っぽくなる。

そこでElevenLabsのサウンドエフェクト機能を使って、オフィスの環境音を生成した。プロンプトはシンプルで、こんな感じだ。

A realistic stock office ambient sound

これで、空調の音、遠くのキーボード音、人の気配みたいな、自然なオフィスのアンビエント音が出てくる。正直、これには驚いた。効果音一つで映像のリアリティが全然違う。「音がある」だけで、映像が急に「場所」を持つようになる。

ElevenLabsは元々テキスト読み上げ(TTS)のサービスとして知られているが、2024年にサウンドエフェクト生成機能をリリースした。テキストプロンプトを入力するだけで、環境音やBGM、効果音を生成できる。ElevenLabs公式ブログでは、音声AI技術の最新動向やクリエイティブな活用事例が紹介されており、今回の制作でも大いに参考にした。特にサウンドデザインにおける「レイヤリング」の考え方 -- 複数の音を重ねて奥行きを作る手法 -- は、映像のリアリティを劇的に向上させる。

After Effectsでの編集はどこまで自動化できるのか?

手動編集ではどのくらい時間がかかるのか?

素材が揃ったら、After Effectsで編集する。映像、ナレーション、テロップ、効果音。これらを全部タイムラインに並べて、タイミングを合わせていく。

普通にやると、これが一番時間がかかる。テロップの位置を1ピクセルずつ調整して、フェードインのタイミングを0.1秒単位で合わせて、音声と映像の同期を確認して......。気がつくと3時間経っている、みたいなことが映像編集の「あるある」だ。

ExtendScript (JSX) でどこまで自動化できたのか?

ここで威力を発揮したのが、After EffectsのExtendScript (JSX) だ。要するに、After Effectsの操作をスクリプトで自動化できる仕組みだ。

たとえば、「この素材を3秒目に配置して、0.5秒かけてフェードインさせて、テロップをこの位置に出す」みたいな指示を、全部コードで書ける。手動でキーフレームを一つずつ打つのと比べると、圧倒的に速い。

特に助かったのが、タイミングの微調整だ。ナレーションの尺に合わせてテロップの表示タイミングを変えたいとき、手動だと全部のキーフレームをずらす必要がある。スクリプトなら、数値を1つ変えて再実行するだけ。これのおかげで、何十回もの微調整を短時間で回せた。

After Effectsのスクリプティングについては、Adobe公式のスクリプティングガイドが最も信頼できるリソースだ。また、映像制作の自動化というトレンドは、Adobe自身も推進しており、Adobe BlogでもAIと映像編集の統合に関する記事が増えている。私たちのケースでは、コンポジション作成、素材の配置、キーフレーム設定、イージング適用、レンダリングまでをすべてスクリプトで実行した。

どこまでを人間の手で仕上げるべきか?

とはいえ、全部をスクリプトで済ませられるわけではない。色味の最終調整、映像のカットポイントの判断、全体を通して見たときの「気持ちよさ」の調整。こういう感覚的な部分は、結局人間がやるしかない。

スクリプトで80%を自動化して、残りの20%を人間が丁寧にやる。この組み合わせが、2時間という制作時間を実現した鍵だった。

2時間のAI映像制作で何が見えてきたのか?

この2時間の格闘を通じて、いくつか分かったことがある。

AIツールの組み合わせでどこまでのクオリティに到達できるのか?

Runway、ElevenLabs、After Effects、そしてAI音声合成。それぞれ単体でも優秀だけど、組み合わせるとさらに力を発揮する。映像はRunway、効果音はElevenLabs、編集はAfter Effects、そして音声はAI音声合成。この4つの役割分担が、今回はうまくハマった。

「AIだけで完結」は本当なのか?

正直に言うと、「AIだけでCMが作れる」は言い過ぎだ。AIが作ってくれるのはあくまで素材。それを選び、並べ、タイミングを合わせ、全体のトーンを整えるのは人間の仕事だ。AIは強力なアシスタントではあるけれど、ディレクターにはなれない。

制作で一番時間を使ったのはどこか?

これは意外だったのだが、一番悩んだのは技術的なことではなく、ナレーションで何を言うかだった。15秒という短い尺の中で、AIテレアポの価値をどう伝えるか。どの言葉を使って、どの順番で話すか。これはAIでは決められない。自分たちのサービスを一番よく知っている人間が、頭をひねって考えるしかない。

映像制作のハードルはどのくらい下がっているのか?

数年前なら、CM風の映像を作ろうと思ったら、制作会社に数百万円払うか、自分で高価な機材を揃えるしかなかった。今は、パソコン1台とAIツールのサブスクリプションがあれば、ここまでできる。完璧ではないにしても、「使えるレベル」には十分到達できる。

この傾向は私たちだけの感想ではない。McKinsey Digitalのレポートでも、生成AIがクリエイティブ産業に与える影響について言及されている。映像制作、音声合成、デザインといった領域でのAI活用は、もはや先進的な実験ではなく、実務レベルの選択肢になりつつある。特にスタートアップにとっては、限られたリソースで最大のアウトプットを出すための有力な手段だ。

スタートアップが試すべき理由は何か?

予算が限られているスタートアップだからこそ、AIツールを活用した映像制作は試す価値がある。外注で1本作る予算で、自分たちで何本も試行錯誤できる。その過程で、自分たちのサービスの伝え方について深く考えるきっかけにもなる。

まとめ -- まだまだこれから

正直に言えば、今回作った映像にはまだまだ改善の余地がある。プロの映像クリエイターが見たら、指摘したいところは山ほどあるだろう。

でも、この2時間で「自分たちでもここまでできる」という手応えを得た。これが一番大きい。外注しないと映像は作れないという思い込みが、完全に崩れた。

AIテレアポの可能性を、映像を通じて伝え続けていきたい。今回はCM風広告だったが、次は導入事例のインタビュー動画に挑戦したいと考えている。お客様の声を、実際の映像として届けられたら、サービスの価値がもっとリアルに伝わるはずだ。

映像制作のハードルは、AIの力で確実に下がっている。スタートアップでも、やろうと思えばできる時代になった。まだまだこれからだけど、一歩ずつ、着実に進んでいく。

AIテレアポという市場はまだ黎明期にある。だからこそ、サービスの価値を正しく伝えるための表現手段を、私たち自身が開拓していく必要がある。映像は、テキストや静止画では伝えきれない「体験」を届けられる唯一のメディアだ。AIが電話をかける。自然に会話する。アポイントを獲得する。その一連の流れを、映像を通じて「見て・聴いて・感じて」もらえる形で届けたい。

この記事が、AIテレアポに限らず、自社サービスの映像制作に挑戦しようとしている方にとって、少しでも参考になれば嬉しい。

よくある質問

Q. AIだけでCM風の映像は本当に作れるのか?

部分的にはYes、しかし完全自動化ではありません。私たちRabona AIの経験では、映像生成(Runway)、AI音声合成、サウンドエフェクト生成(ElevenLabs)、After Effectsのスクリプト自動化を組み合わせることで、従来は外注が必要だったレベルの映像を約2時間で制作できました。ただし、セリフの設計、カットの選択、全体のトーン調整といったディレクション業務は人間が担います。AIは強力な素材生成エンジンであり、80%の工程を自動化できますが、残り20%の判断は人間が行うのが現実的です。

Q. AI映像制作にかかるコストはいくらくらいか?

使用するツールのサブスクリプション代のみで済みます。Runway、ElevenLabs、AI音声合成プラットフォーム、After Effectsを合計しても月額数万円台に収まります。従来の映像制作会社への外注見積もりはCM1本あたり数百万円規模が一般的なため、コスト構造が大きく異なります。私たちRabona AIのように予算が限られるスタートアップでも、外注1本分の予算で何十回も試行錯誤できる計算になります。パソコン1台と最低限のサブスクだけで、「使えるレベル」の映像が量産できる時代になっています。

Q. Runwayで高品質な映像を生成するプロンプトのコツは?

4つのポイントがあります。1つ目は「Photorealistic cinematic」という修飾語を必ず入れること。これがないとCG感が強く残ります。2つ目は「Shot on Sony」「Shot on ARRI」といったカメラ機種の指定で、レンズの質感やセンサーの色再現が大きく変わります。3つ目は場所の具体化で、単に「Tokyo Japan」ではなくシチュエーションまで書き下します。4つ目は「Multi-Shot Video」指定で、1プロンプトから複数カットを同時に取得できます。抽象的なプロンプトは使えない映像しか生まれません。映画の絵コンテを書くつもりで具体的に指定することが、Runwayを使いこなす最大のコツです。

Q. AI音声合成で自然なCMナレーションを作るには?

声のキャスティングが最重要です。同じセリフでも声質が違うだけで映像の印象が一変します。私たちRabona AIのCM制作では、メインナレーションに「落ち着いた男性ボイス」、サービス紹介には「元気な女性ボイス」を使い分けました。さらに最後のブランド名コールでは、声質の異なる複数の音声をレイヤリングして厚みを出しています。テレビCMでよく聞くあの「ブランド名コール」の質感は、単一の声では再現できず、意図的な多重化で生まれます。用途ごとの声の選定と、必要に応じた音声レイヤリング、この2点を押さえれば「AIっぽさ」は一気に消えます。

Q. After Effectsの編集をスクリプトで自動化するメリットは?

最大のメリットは微調整ループが劇的に速くなることです。手動編集では、素材を3秒目に配置、0.5秒フェードイン、テロップ位置1px単位の調整、キーフレーム打ちといった作業に何時間もかかります。ExtendScript (JSX) ですべてコード化すれば、数値を1つ変えて再実行するだけで全体が一気に組み替わります。私たちRabona AIのケースでは、コンポジション作成、素材配置、キーフレーム設定、イージング、レンダリングまでスクリプト化しました。結果として「80%を自動化・20%を人間が仕上げる」構成が確立でき、2時間という制作時間が実現しました。色味や気持ちよさの最終調整は依然として人間の仕事ですが、作業の大半は機械的に回せます。

AIテレアポで、毎日の電話業務をもっとスマートに。
お気軽にご相談ください。

お問い合わせはこちら