FramePackは、スタンフォード大学の研究チームが開発した最新のオープンソース動画生成AIです。これまで数秒程度しか作れなかったAI動画を、数分単位で生成できるようにする画期的なツールです。
この記事では、FramePackの仕組みや性能、実際に作成したミュージックビデオの例を、画像・動画付きで紹介します。
FramePackの仕組み:AIによる次フレーム生成
FramePackは、最初の画像(またはAIが作った初期フレーム)とテキスト指示から、次のフレームを予測して1枚1枚積み上げていくAIです。
単なるフレーム補間ではなく、ゼロから新しいフレームを生み出すのが大きな特徴です。これを支えるのはディフュージョンモデルというAI技術。過去のフレームの情報を参照しつつ、ノイズから段階的に映像を生成します。
最大の革新は、動画が長くなってもメモリ使用量が増えない点です。古いフレームの情報は圧縮され、重要な最新フレームのみが高解像度で保持されます。結果、6GB以上のVRAMを持つGPUなら、1分以上の長さの動画生成が可能になりました。
性能比較:RTX 4090デスクトップ vs RTX 4070 Superラップトップ
以下は実際のベンチマーク結果です。
- デスクトップPC(NVIDIA RTX 4090, 24GB VRAM)
120秒(2分)の動画生成にかかった時間は約2時間。1フレーム約2〜2.5秒。 - ノートPC(NVIDIA RTX 4070 Super ラップトップ, 12GB VRAM)
動画1秒の生成に約5分。単純計算で、2分動画なら約10時間。
ノートPCでも動作するのは大きな魅力です。速度は落ちますが、個人でも長尺AI動画を作れる時代が来ています。
実例:YouTubeショート「光の中の奇跡」
ChatGPTで生成した元画像
以下の動画は、上記の画像からFramePackとRTX 4090を使って生成した120秒のAI動画です。
テーマは教会で賛美する少女の物語。音楽は別途編集で加えています。
動画の説明欄では:
- この動画はすべてAI生成。
- 作詞:ChatGPT、作曲・歌唱:Suno.AI、映像生成:FramePack。
- 高性能GPUを使って個人環境で長尺生成を実現。
映像は少女の動き、光の演出、カメラのズームやパンが自然に組み合わさり、音楽と視覚が見事に調和しています。
まとめ:AI動画生成の未来
FramePackは、家庭用GPUでも長尺のAI動画生成を可能にした革新的なツールです。RTX 4090のようなハイエンド環境なら2時間程度、RTX 4070 Superノートでも時間をかければ実現可能です。
今後、最適化が進めばさらに長尺・高画質のAI動画が一般ユーザーの手に届く日も近いでしょう。個人がAIで映画のような映像を作れる時代が、すぐそこまで来ています。