学习札记论文阅读 | Bernini-Latent Semantic Planning for Video DiffusionBernini 把 MLLM 的语义规划能力和视频扩散模型的像素生成能力接起来,用 ViT embedding space 作为接口,统一处理视频生成与编辑任务。