国产 Magi-1,在物理真实性上,断层第一,能够无限制生成长视频。 它采用的是一种叫做 chunk-by-chunk 的自回归生成 方法。视频被划分为一个个时间片段(chunk),每段比如 24 帧,相当于 1 秒的视频。 每生成一段,才会进入下一段。下一段的内容,要基于上一段的内容来生成。Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用,而是在 attention、FFN、条件编码、位置编码上都做了大量改进。它让视频生成这件事,从“像画图一样生成结果”, 变成了“像连续剧一样,一集一集生成”。