歌詞字幕付きの MV は、SNS での視聴維持率を倍にすると言われます。とはいえ手作業でタイミングを取るのは地獄。本記事では、歌詞テキストを正として、AI を「タイミングガイド」として使うという現実的なワークフローを紹介します。日本語の歌唱でも実用レベルで動きます。

なぜ「AI に全部任せる」は失敗するのか

Whisper 系の音声認識を歌唱データに直接使うと、特に日本語ではこんな問題が起きます。

これらは AI の精度問題というより、歌唱という入力が音声認識の前提（自然発話）から外れているために起きます。解決策はシンプル：歌詞テキストは人間が用意する前提にして、AI には「いつ歌うか」だけを推定させます。

推奨ワークフロー

プレーンテキストで OK です。改行は 1 行 = 1 字幕として扱われます。長い行は 2 行に分けるとモバイルでも読みやすくなります。

誰もいない夜の街で
あなたを思い出してた

風が吹いて窓が鳴る
それだけで泣きそうになる

音源からボーカルだけを抽出（Demucs 系）し、ボーカル波形のピークを 歌唱区間として検出します。次に Whisper で「だいたいの歌詞ライン」を時刻つきで取得し、それを人間が書いた歌詞テキストにアラインメントします。これで「歌詞の各行がいつ画面に出るか」が決まります。

ここで重要なのは Whisper の出力をそのまま字幕にしないことです。Whisper の文字列は「タイミング推定のためのアンカー」として使い、画面に出すのは人間が用意した正規の歌詞テキストです。これだけで字幕の品質が劇的に上がります。

サビの伸ばしや、ブリッジの息継ぎなど、自動推定がズレやすい箇所は ±200ms 程度の手動補正で十分です。各行の開始時刻だけドラッグで動かせるツールが理想で、終了時刻は次の行の開始から自動算出するのがメンテしやすい設計です。

最終的な書き出しは 2 パターン：

SNS（Instagram Reels、TikTok）では別トラックが効かないので、バーン版を別途書き出すのが現実的です。

歌詞テキストはローマ字を含める——英語混じりの歌詞でアラインメントの精度が安定します。
セクション記号 [Verse] [Chorus] を入れる——構造検出の精度が向上し、サビでフォントを変える等の演出が自動化できます。
ボーカル分離後の音量を 0.95 ピークに正規化——イントロの小さなボーカルも検出できるようになります（テクニカルですが、ローカルツールならパラメータ化されているはず）。

ボーカル分離と歌詞認識は、どちらも Apple Silicon の Metal Performance Shaders / NVIDIA CUDA で十分高速に動きます。3 分の楽曲ならハイエンドノートで 30 秒前後、M1 相当でも 90 秒程度です。クラウドにアップロードする必要はありません。

私たちの Versegen は、本記事のワークフローをそのまま実装しています。歌詞テキストを貼り付けて再認識ボタンを押すだけで、自動アラインメントが走ります。こちらからダウンロードできます。

MV の自動カット編集の仕組みについては別記事で解説しています。