Sora

人工智能文生视频大模型Sora（https://openai.com/sora）是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型，于2024年2月15日（美国当地时间）正式对外发布。
Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力，能理解用户在提示中提出的要求。
Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

功能特点

优点

功能综述
Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频（其他AI视频工具还在突破几秒内的连贯性），视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

静态图生成视频
Sora还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。

视频扩展与缺失帧填充
Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。

连接视频
可以使用Sora连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡。

其他能力

Sora的其他能力
能力	描述
图像生成	Sora可以生成各种尺寸的图像，分辨率最高达2048×2048 。
3D一致	Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。
远距离连贯性物体持久性	Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频中的外观。
互动性	Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。
模拟数字世界	Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。
多机位	Sora可以生成多机位、多角度的视频。

缺点

Sora也存有以下弱点：可能难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件。

例如，在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中，狼的数量会变化，一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系，多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

技术特点

多帧预测生成

Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构，OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”，为视觉训练数据生成高度描述性的标注，这使得模型能够更忠实地遵循用户的文本指令，生成符合用户需求的视频内容，同时也提高了模型的灵活性和可控性。

数据表示

OpenAI将视频和图像表示为Patch，类似于GPT中的token，这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比，有助于模型学习到更丰富的视觉特征，提高生成视频的质量和多样性。

原生规模训练

Sora采用“原生规模训练”，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节，而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样，允许直接为不同尺寸的设备创建内容，并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比，Sora可以生成更完整、更美观的视频。