エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Diffusionモデルの仕組み 動画を潜在ベクトル(Cosmos TokenizerのCV8x8x8など)にエンコード そこに段階... Diffusionモデルの仕組み 動画を潜在ベクトル(Cosmos TokenizerのCV8x8x8など)にエンコード そこに段階的にガウスノイズを加え、ノイズ除去しながら最終的に復元→動画生成 3Dパッチ化により、(×ばつ幅)を一定単位でまとめて計算効率を確保 RoPEを活用して、フレームレートや解像度を変更しても整合性をある程度維持 学習時は画像データや動画データを交互に使い、大量かつ多様なデータを効果的に学習しています。 Autoregressiveモデルの仕組み 動画を離散トークン化 ×ばつ16の圧縮率でCVAE/VQ-VAEのように動画をトークンへ変換 次フレーム予測タスク 過去フレームトークン列 → 次フレームトークンを一つずつ推定し、順に生成 テキスト条件 T5などでエンコードした文字情報をクロスアテンションで条件付けを行うことで、テキストプロンプトに従っ