文生视频模型Sora：60s、多角度、细节准确

2月16日凌晨，OpenAI发布了文生视频模型Sora。据介绍，Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示符中要求的内容，还了解这些东西在物理世界中是如何存在的。

比如，提示词：两艘海盗船在一杯咖啡中航行时相互战斗的逼真特写视频。

再比如，提示词：这张维多利亚加冕鸽子的特写镜头展示了其醒目的蓝色羽毛和红色胸部。它的冠状物由精致的花边羽毛制成，而它的眼睛是醒目的红色。鸟的头略微向一边倾斜，给人的印象是它看起来高贵而雄伟。背景模糊不清，引起了人们对这只鸟引人注目的外表的注意。

目前Open AI官网上更新了40多个视频demo。

在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

据介绍，Sora模型对语言有深刻的理解，使其能够准确解释提示，并生成表达充满活力的情感的引人注目的字符。Sora还可以在单个生成的视频中创建多个镜头，以准确保留角色和视觉风格。

OpenAI关于Sora相关的技术报告：《Video generation models as world simulators | 视频生成模型：构建虚拟世界的模拟器》指出，Sora的能力包括：时长、分辨率、画面比例可变；语言理解能力；可通过图像和视频进行提示；图像生成能力；涌现能力。

时长、分辨率、画面比例可变：Sora可以采样横屏1920x1080p视频、竖屏1080×1920视频以及两者之间的所有内容。所以Sora可以直接以原生宽高比为不同设备创建内容，并且以原生宽高比训练视频可以改善构图和取景。

语言理解能力：OpenAI 首先训练一个高度描述性的字幕模型，然后使用它为训练集的所有视频生成文本字幕。训练高度描述性的视频字幕可以提高文本的准确性以及视频的整体质量。另外，还利用 GPT 将用户简短的提示转化为更详细的描述，并发送给视频模型。这使得 Sora 能够更准确地按照用户的提示进行操作。

可通过图像和视频进行提示： Sora 不仅可以使用文本作为提示词，还可以接受图片或视频作为提示，并执行各种图像和视频编辑任务，例如创建循环的视频，给静态图像添加动画效果，将视频向前或向后扩展、视频对视频的风格转换、视频之间的无缝过渡等等。

图像生成能力：通过在一个帧的时间范围内，将高斯噪声 patches 排列在一个空间网格中来实现这一点。可以生成不同尺寸的图像，最高分辨率可达2048×2048。

Sora的涌现能力包括：3D一致性；长视频的时间一致性；与世界互动；模拟数字世界。

3D一致性：Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中保持一致移动。

长视频的时间一致性：Sora 通常能够有效地建模短程和长程的依赖关系，尽管并非总是如此。例如，Sora 可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样，它可以在一个样本中生成同一角色的多个镜头，并在整个视频中保持它们的外观。

与世界互动：Sora 有时可以模拟对世界状态产生简单影响的动作。例如，画家可以在画布上留下持续一段时间的新笔触，或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界：Sora 还能够模拟人工过程，一个例子就是视频游戏。Sora 可以同时使用基本策略控制Minecraft中的玩家，同时以高保真度渲染世界及其动态。通过提示Sora 提到“Minecraft”的标题，可以激发这些能力。

同时，Openi AI提示，目前的模型弱点是，Sora 无法准确模拟许多基本交互的物理效应，比如玻璃破碎。其他交互，比如吃东西，也不总是能正确地改变物体状态，以及在长时间样本中出现的不连贯性或物体的突然出现等等。

# AI科技项目