私たちRabona AIは「AIテレアポ」というサービスを提供している。AIが電話をかけて、営業のアポイントを取る。そういうサービスだ。
で、このサービスをもっと多くの人に知ってもらいたい。当然そう思う。でも映像制作を外注すると、見積もりを見て目を疑うような金額になる。正直に言うと、スタートアップにはキツい。
じゃあ、今あるAIツールを使って自分たちでどこまでできるのか。試してみよう。そう思い立って、約2時間格闘した記録がこの記事だ。
この記事で分かること
- Runwayで映像素材を作るときのプロンプトのコツ
- AI音声合成とElevenLabsを使ったナレーション・効果音の作り方
- After EffectsのExtendScript (JSX) による編集自動化
- 2時間やってみて分かった、AIだけでは完結しないリアルな話
まず完成した映像を見てほしい
とにかく、まずは見てほしい。細かい話はその後で。
※ 縦動画のため、スマートフォンでの視聴に最適化されています
完璧じゃない。それは自分たちが一番分かっている。でも、これを約2時間で作ったと言ったら、ちょっと驚かないだろうか。
Runway、AI音声合成、ElevenLabs、After Effects。これらのツールを組み合わせて、外注ゼロで作った。もちろんまだまだ改善の余地だらけだし、これからもっと良くしていきたい。でも「やってみたら意外とできた」というのが正直な感想だ。
ここからは、具体的にどうやって作ったのかを書いていく。
Runwayで映像素材を作る -- プロンプトの書き方が全てだった
最初は全然ダメだった
映像素材の生成にはRunwayを使った。テキストのプロンプトから映像を生成してくれるツールだ。
最初は正直ナメていた。「Japanese office scene」みたいな雑なプロンプトを入れて、出てきた映像を見て愕然とした。なんというか、AIが作りましたという雰囲気が全開で、とても広告には使えない。やってみて分かったのだが、Runwayはプロンプトの書き方で出来が天と地ほど変わる。
効果的だったプロンプトのコツ
何十回も試行錯誤して、ようやく掴んだコツがいくつかある。
- 「Photorealistic cinematic」をつける -- これを入れるだけで一気にリアルな映像になる。逆にこれがないと、どこかCG感が出てしまう
- カメラ機種を指定する -- 「Shot on Sony」や「Shot on ARRI」と書くと、レンズの質感やセンサーの色再現が変わる。これが一番効果が大きかった
- 場所を具体的にする -- 「Tokyo Japan」だけじゃなく、どんなシチュエーションなのかを書く。オフィスなのか、会議室なのか、ビルの屋上なのか
- 「Multi-Shot Video」を指定する -- これを入れると複数のカットが自動で生成される。一つのプロンプトで複数の素材が手に入る
実際に使ったプロンプトの例を一つ挙げると、こんな感じだ。
Photorealistic cinematic Japanese TV commercial, set in Tokyo Japan, Shot on Sony
これだけで、かなりリアルなオフィスのシネマティック映像が出てくる。
Runwayの公式ブログでも、プロンプトエンジニアリングのベストプラクティスが公開されている。特にRunway Research Blogでは、映像生成モデルの特性や、より良い結果を得るためのテクニックが定期的に紹介されており、制作前に目を通しておくことを強くおすすめする。また、Runwayのコミュニティでは他のクリエイターのプロンプト例も共有されており、「他の人がどういう指示で良い映像を出しているか」を学ぶのに非常に参考になった。
こうやると失敗する
逆に、絶対やってはいけない書き方もある。
A video about AI phone calls
こういう抽象的なプロンプトだと、本当に使えない映像になる。AIが何を描けばいいか分からないので、なんとなくそれっぽい、でも全然使えないものが出てくる。プロンプトは、映画の絵コンテを書くつもりで具体的に指定するのがコツだ。
音声はAI音声合成とElevenLabsで
ナレーションはAI音声合成で
映像ができたら、次はナレーションだ。ここではAI音声合成プラットフォームを使った。
やってみて分かったのだが、声のキャスティングが予想以上に重要だった。同じセリフでも、声が違うだけで映像の印象がガラッと変わる。最初に適当に選んだ声だと、どうしても「AIが喋ってます」感が出てしまって、CM感が薄れる。
最終的に落ち着いたのは、こういう使い分けだ。
- 落ち着いた男性ナレーション -- メインのナレーションに使用。信頼感があって、CMのトーンにぴったりだった
- 元気な女性ナレーション -- サービス紹介の部分に使用。テンポが良くて、聞いていて心地いい
最後の「ラボーナ AI」は複数の声を重ねた
映像の最後に「ラボーナ AI」というサービス名を読み上げるパートがある。ここは少しこだわった。1人の声だと印象が薄いので、声質の異なる複数の音声を重ねてみた。男性・女性、落ち着いたトーン・元気なトーンを混ぜることで、テレビCMでよく聞くあの「ブランド名コール」の厚みを再現した。
一人で読むのとは全然違う、厚みのあるサウンドになる。地味なテクニックだけど、CM感が一気に出る。
効果音はElevenLabsで生成
映像のリアリティを決めるのは、実はナレーションよりも環境音だったりする。無音の映像にナレーションだけ載せると、どうしても安っぽくなる。
そこでElevenLabsのサウンドエフェクト機能を使って、オフィスの環境音を生成した。プロンプトはシンプルで、こんな感じだ。
A realistic stock office ambient sound
これで、空調の音、遠くのキーボード音、人の気配みたいな、自然なオフィスのアンビエント音が出てくる。正直、これには驚いた。効果音一つで映像のリアリティが全然違う。「音がある」だけで、映像が急に「場所」を持つようになる。
ElevenLabsは元々テキスト読み上げ(TTS)のサービスとして知られているが、2024年にサウンドエフェクト生成機能をリリースした。テキストプロンプトを入力するだけで、環境音やBGM、効果音を生成できる。ElevenLabs公式ブログでは、音声AI技術の最新動向やクリエイティブな活用事例が紹介されており、今回の制作でも大いに参考にした。特にサウンドデザインにおける「レイヤリング」の考え方 -- 複数の音を重ねて奥行きを作る手法 -- は、映像のリアリティを劇的に向上させる。
After Effectsでの編集 -- スクリプト自動化が神だった
手動でやったら日が暮れる
素材が揃ったら、After Effectsで編集する。映像、ナレーション、テロップ、効果音。これらを全部タイムラインに並べて、タイミングを合わせていく。
普通にやると、これが一番時間がかかる。テロップの位置を1ピクセルずつ調整して、フェードインのタイミングを0.1秒単位で合わせて、音声と映像の同期を確認して......。気がつくと3時間経っている、みたいなことが映像編集の「あるある」だ。
ExtendScript (JSX) で自動化した
ここで威力を発揮したのが、After EffectsのExtendScript (JSX) だ。要するに、After Effectsの操作をスクリプトで自動化できる仕組みだ。
たとえば、「この素材を3秒目に配置して、0.5秒かけてフェードインさせて、テロップをこの位置に出す」みたいな指示を、全部コードで書ける。手動でキーフレームを一つずつ打つのと比べると、圧倒的に速い。
特に助かったのが、タイミングの微調整だ。ナレーションの尺に合わせてテロップの表示タイミングを変えたいとき、手動だと全部のキーフレームをずらす必要がある。スクリプトなら、数値を1つ変えて再実行するだけ。これのおかげで、何十回もの微調整を短時間で回せた。
After Effectsのスクリプティングについては、Adobe公式のスクリプティングガイドが最も信頼できるリソースだ。また、映像制作の自動化というトレンドは、Adobe自身も推進しており、Adobe BlogでもAIと映像編集の統合に関する記事が増えている。私たちのケースでは、コンポジション作成、素材の配置、キーフレーム設定、イージング適用、レンダリングまでをすべてスクリプトで実行した。
ただし最終調整は手動
とはいえ、全部をスクリプトで済ませられるわけではない。色味の最終調整、映像のカットポイントの判断、全体を通して見たときの「気持ちよさ」の調整。こういう感覚的な部分は、結局人間がやるしかない。
スクリプトで80%を自動化して、残りの20%を人間が丁寧にやる。この組み合わせが、2時間という制作時間を実現した鍵だった。
2時間やってみて分かったこと
この2時間の格闘を通じて、いくつか分かったことがある。
AIツールの組み合わせで、かなりのクオリティに到達できる
Runway、ElevenLabs、After Effects、そしてAI音声合成。それぞれ単体でも優秀だけど、組み合わせるとさらに力を発揮する。映像はRunway、効果音はElevenLabs、編集はAfter Effects、そして音声はAI音声合成。この4つの役割分担が、今回はうまくハマった。
「AIだけで完結」は嘘
正直に言うと、「AIだけでCMが作れる」は言い過ぎだ。AIが作ってくれるのはあくまで素材。それを選び、並べ、タイミングを合わせ、全体のトーンを整えるのは人間の仕事だ。AIは強力なアシスタントではあるけれど、ディレクターにはなれない。
一番時間がかかったのは、セリフの文言選び
これは意外だったのだが、一番悩んだのは技術的なことではなく、ナレーションで何を言うかだった。15秒という短い尺の中で、AIテレアポの価値をどう伝えるか。どの言葉を使って、どの順番で話すか。これはAIでは決められない。自分たちのサービスを一番よく知っている人間が、頭をひねって考えるしかない。
映像制作のハードルは確実に下がっている
数年前なら、CM風の映像を作ろうと思ったら、制作会社に数百万円払うか、自分で高価な機材を揃えるしかなかった。今は、パソコン1台とAIツールのサブスクリプションがあれば、ここまでできる。完璧ではないにしても、「使えるレベル」には十分到達できる。
この傾向は私たちだけの感想ではない。McKinsey Digitalのレポートでも、生成AIがクリエイティブ産業に与える影響について言及されている。映像制作、音声合成、デザインといった領域でのAI活用は、もはや先進的な実験ではなく、実務レベルの選択肢になりつつある。特にスタートアップにとっては、限られたリソースで最大のアウトプットを出すための有力な手段だ。
スタートアップこそ試す価値がある
予算が限られているスタートアップだからこそ、AIツールを活用した映像制作は試す価値がある。外注で1本作る予算で、自分たちで何本も試行錯誤できる。その過程で、自分たちのサービスの伝え方について深く考えるきっかけにもなる。
まとめ -- まだまだこれから
正直に言えば、今回作った映像にはまだまだ改善の余地がある。プロの映像クリエイターが見たら、指摘したいところは山ほどあるだろう。
でも、この2時間で「自分たちでもここまでできる」という手応えを得た。これが一番大きい。外注しないと映像は作れないという思い込みが、完全に崩れた。
AIテレアポの可能性を、映像を通じて伝え続けていきたい。今回はCM風広告だったが、次は導入事例のインタビュー動画に挑戦したいと考えている。お客様の声を、実際の映像として届けられたら、サービスの価値がもっとリアルに伝わるはずだ。
映像制作のハードルは、AIの力で確実に下がっている。スタートアップでも、やろうと思えばできる時代になった。まだまだこれからだけど、一歩ずつ、着実に進んでいく。
AIテレアポという市場はまだ黎明期にある。だからこそ、サービスの価値を正しく伝えるための表現手段を、私たち自身が開拓していく必要がある。映像は、テキストや静止画では伝えきれない「体験」を届けられる唯一のメディアだ。AIが電話をかける。自然に会話する。アポイントを獲得する。その一連の流れを、映像を通じて「見て・聴いて・感じて」もらえる形で届けたい。
この記事が、AIテレアポに限らず、自社サービスの映像制作に挑戦しようとしている方にとって、少しでも参考になれば嬉しい。
AIテレアポで、毎日の電話業務をもっとスマートに。
お気軽にご相談ください。