论文阅读 | Bernini技术报告

用 ViT embedding space 作为接口,利用MLLM 的语义规划能力和视频扩散模型的像素生成能力,统一处理视频生成与编辑任务。

使用 Hugo 构建
主题 StackJimmy 设计