2024年に「AI時代の作曲術」という本を出版しました。
最近は、アーティストやサウンドエンジニアの間で、AIに興味を持つ人が増えているのか、徐々に販売数も伸びてきています。
僕は、2023年にサウンドディレクターとして参加したこちらの映画で、すでにAIを使っていたので、けっこう早い段階からAIを活用している方だと思います。(ちなみにこの映画で使われているAIは、自然すぎて、100%誰も気付かないと思います)
そんな僕が、最近気になっている最新の音声系AIを、5つご紹介します。
AIを活用すれば、これまでの常識では考えられない編集が可能になるので、リテイクを無くしたり、撮影コストを大幅に短縮したり、あるいは特定の職業を消滅させてしまうほどの力を秘めています。
映像関係者にとっては恐ろしい話かもしれませんが、数年かけて、AIをガンガン活用した制作スタイルが一般的になっていくでしょうね。
それでは、順にみていきましょう。
1. Flawless
さっそく、音声系AIの大本命「Flawless」からご紹介します。
Flawlessは、主に以下の2つから成り立っています。
- TrueSync
- Deep Editor
TrueSyncは、俳優の演技の微妙なニュアンスを捉え、新たに録音した音声や多言語音声に完全に一致するリップシンクを生成する技術で、動画を見てもらえば、そのすごさが一発で理解できると思います。
共同創業者でもある映画監督のスコット・マンは、自分の映画作品の外国語吹き替え版を見て愕然としまったと言います。
このサービスにより自然な形で音声の変換ができるようになれば、吹き替え版の不自然さが解消され、まるでハリウッド映画の役者が本当に日本語で話しているかのような吹き替え版を作ることだってできてしまいます。動画に登場する日本語は、若干、唇の動きと合っていないですが、テクノロジーが進化することで解決されるでしょう。
DeepEditorは、撮影後のポストプロダクション段階で、AIを活用して俳優の演技やセリフを修正・調整するサービス。ポストプロダクションの時に取り直しが効かない重大なミスを発見してしまったら、これまではそのシーンをカットするしかありませんでした。ところがDeepEditorがあれば、俳優が実際には話していない言葉を後から加えることができ、さらに唇の動きや表情までマッチさせることが可能です。
こちらの動画で紹介されているように、登場人物の不要な言葉をAIでカットし、さらに表情まで調整することで、まるで最初からその言葉を話していなかったかのように見せることができます。さらに、F⚪︎⚪︎kなどのFワードを、人物の顔が映ったショットのまま、別の言葉に自然に置き換えることも可能。
このように最新のAIを使えば、大幅なコストカットができると同時に、撮り直しせずセリフを差し替えたり、撮影後に思いついたセリフを後から足すといった、従来の編集ではあり得なかったことまでできてしまうのです。
2. Kits.AI
声のクローンを作るサービスで、好きなアーティストの声を使ってボイスモデルを作ると、自分の歌声を好きなアーティストの声に変換してくれます。
ちなみに、似たようなサービスにElevenLabsがありますが、こっちの方が良い理由があります。
それは、クローンボイスを作る時、Kits.AIだと本人の声の認証がいらないのです。つまり、本人の許可なしに、クローンボイスが作れてしまうというとんでもないサービス。歌声だけでなくナレーションにも使えるので、もうビジネスから悪いことまで、あらゆる使用法が思い浮かびますね。
くれぐれも悪用は厳禁ですよ・・・
Kits.AI | 声のクローンを作り出す未来がやってきた – スタジオ翁
3. Respeecher
RespeecherはAIを活用した音声クローン技術で、Kits.AIと同じく、ある人物の声を高精度に再現することができます。
これのすごいところは、2021年というかなり早い段階で、AIクローン技術をテレビシリーズに使っていたことで、「マンダロリアン」というスターウォーズシリーズで、若い頃のルーク・スカイウォーカーの声を再現するためにAIが使われていたことが、2021年8月に放送されたシーズン2の最終章のメイキングで明らかにされています。
こんな早くからAIによる声のクローンが使われていたなら、今はどれほど映画やドラマにAIが使われているんだろう・・・と思ってしまいますよね。英語対応のサービスが多いことからアメリカやイギリスを中心にこういったAIが使われているのだと思いますが、そろそろ日本でも映画やドラマに使われ始めるのではないでしょうか。
4. Krotos Studio
映画制作ではフォーリーを担当することもありますが、その際も、Krotos Studioにはよくお世話になります。
最近、AIによってフォーリーエンジンが強化され、より自然な足音、観衆の声、環境音などを作ることができるようになりました。
まだ実用的ではないですが、「FoleyCrafter」のような、映像をAIが分析して自動的に環境音を生成してくれるAIも登場してきているので、小規模映画なら「フォーリーはAIでやってしまおう」というケースが増えてくるでしょうね。
5. Suno AI
声ではないですが、音楽系AIなら、2025年もSunoがベストです。
アーティストの作った音楽を拡張してくれたり、既存の音楽を読み込ませ、それを参考に新たな音楽を作ってくれたりと、単なる自動作曲AIから「アーティストの創造性を拡張するためのAI」として進化しつつあります。
V4になって、音もめちゃめちゃ良くなりましたね。
最近は、企業の新卒採用動画の音楽を依頼されたので、Sunoを活用してパパッと3曲納品しました。(AIで作って欲しいと依頼されていました)
おそらく予算の少ない仕事だったので、作曲家に頼むという選択肢は最初からなかったと思いますが、ArtlistやEpidemic Soundのようなサービスを使って音楽を選ぶよりも、AIを使った方が効率いいんじゃないかと思いました。尺の微調整ができないのが難点ですが、今後進化していけば調整できるようになるでしょう。
まとめ

音声系AIは、動画生成系ほど目立たないですが、着実に映像制作などのプロダクション業務に浸透してきています。
サブスクで気軽に使えるAIもかなり増えてきているので、映像系のお仕事をしている人はぜひ、これらのツールを活用して作業を効率化してみてください。