Whisk | MIS雑記帳

講義に使えないかと、利用可能なあらゆる（大げさ）動画生成AIを試しているのですが、やはりネックは利用料金。AI格差が起こらない社会を望みます。

State-of-the-art video and image generation with Veo 2 and Imagen 3

We’re rolling out a new, state-of-the-art video model, Veo 2, and updates to Imagen 3. Plus, check out our new experiment, Whisk.

記事概要

Veo 2 と Imagen 3 の発表
- Googleは動画生成モデル「Veo 2」と画像生成モデル「Imagen 3」をアップデートし、Google LabsのVideoFXやImageFXツールを通じて提供を開始した。
新しい実験ツール：Whisk
- WhiskはImagen 3とGeminiの視覚理解機能を組み合わせたツールで、画像をリミックスして独自のアイデアを視覚化できる。
Veo 2 の特徴
- 高品質でリアリスティックな動画を生成し、映像撮影技術や物理的な動き、人間の表情を理解している。
- クローズアップや追尾撮影などの撮影スタイルやレンズ効果をプロンプトで指定可能。
- 最大4K解像度、数分間の動画作成ができる。
- AI生成コンテンツを識別するSynthIDウォーターマークが付与されている。
Imagen 3 の特徴
- 明るく、構図の良い画像を生成し、フォトリアリズムから抽象画やアニメまで多様なアートスタイルに対応している。
- プロンプトに忠実で、よりリッチな質感やディテールを描写できる。
- 人間による評価で他の画像生成モデルを上回る結果を達成している。
活用事例
- YouTubeクリエイターがYouTube Shorts用の背景動画に活用している。
- 企業はVertex AIを使ってクリエイティブなワークフローを強化している。
- 映像制作者やビジネスがVideoFXやImageFXを利用してストーリーを伝えている。
提供と展開
- Veo 2はGoogle LabsのVideoFXを通じて段階的に提供されており、来年にはYouTube Shortsなどへの展開が計画されている。
- Imagen 3はImageFXを通じて、100以上の国でグローバルに提供を開始している。
Whisk の機能
- 画像をプロンプトとして利用し、新しいデザインを作成・リミックス・視覚化できる。
- 米国で提供が開始され、Google Labsで利用できる。
安全性への取り組み
- Googleは責任ある開発を重視し、段階的な展開とウォーターマーク付与で誤情報の防止に努めている。
例とプロンプト
- Veo 2（例：実験室のシネマティックシーン）やImagen 3（例：フォトリアリスティックな画像やアート風の画像）の例が、モデルの先進的な能力を示している。
協力的な開発
- Googleはクリエイターや企業、コミュニティと連携して、これらのツールをさらに進化させている。

動画生成AIとは、人工知能を用いて映像を自動生成する技術である。さまざまなスタイルや内容に対応し、ユーザーの要求に応じて動的な映像を作成することが可能である。画像や音声のデータを分析し、マルチメディアコンテンツの制作を効率化するために利用される。特に教育やマーケティング、エンターテインメント分野において、その活用が期待されている。