OpenAI Sora 核心作者最新演讲：我们目前拥有的数据量足以实现 AGI

巴比特_AI领航员236天前

作者 | 王启隆

前几天，OpenAI CEO Sam Altman 突然在 X 来了一句：

“电影将变成电子游戏，而电子游戏将变成难以想象的、更加美好的事物。”

这话引发了几天的热议，随后在周六早上，人工智能社区 AGI House 邀请到了 OpenAI Sora 的核心作者 Tim Brooks 和 Bill Peebles 做演讲，深度解读了这几个月闹得沸沸扬扬的文生视频模型 Sora。这场演讲的主题和 Sam Altman 前几天的话一样耐人寻味：

“视频生成技术可以通过模拟一切事物来引领我们走向通用人工智能（AGI）。”

对于 Sora 是「AGI 的必经之路」还是「一条支线上的阶段性产品」，业界内已经形成了不同的观点，有很多人坚信主打「语言」才是对的，而 Sora 核心作者的这番话则表示 Sora 不仅能模拟一切，还是前往 AGI 的一辆直通车。

这次的东道主 AGI House 是家主打外部社区建设和对话的初创公司，每月多次组织仅限受邀人士参加的晚宴和炉边谈话，涵盖人工智能对消费者或垂直软件的影响等主题。演讲长达 30 分钟，还有十分钟的观众问答环节，可谓是含金量十足：在经过了这两个月各大网友、专家的点评和 OpenAI CTO 的“忽悠”之后，我们总算是能见到 Sora 真正的核心作者出来公布技术细节了。

完整视频链接：https://twitter.com/agihouse_org/status/1776827897892024734

Sora 作者亲自透露细节！

Sora 的目标

开场的是 Tim Brooks，文生图模型 DALL·E 3 的作者，去年 1 月刚从加州大学伯克利分校博士毕业，但在本科至博士期间已经在 Facebook、Google 和英伟达都实习了一遍。

Brooks 上来就把 Sora 最经典的视频——Tokyo walk，给观众播放了一遍，Brooks 表示，这个视频对 Sora 团队来说非常特别，因为它是一分钟的高清视频。这也是团队一直以来的目标：当他们试图寻找能推动视频生成技术前进的因素时，确定了生成长度为一分钟的 1080p 视频会是一大里程碑。这个视频达到了这一目标。

这段视频包含了许多复杂的元素，比如反射和阴影。一个非常有趣的地方是是视频中出现的那个蓝色标志：在画面中，当一位女性角色正穿越这个标志，而即使在她走过之后，该蓝色标志仍保持原位不动。

这对于视频生成技术来说是一个巨大的挑战，即保持物体的持久性和长时间的一致性。

Sora 不仅能做到这一点，还能够生成多种不同风格的视频，无比神奇。此外，Brooks 表示 Sora 也能理解整个三维空间，摄像机能像人一样在三维空间中移动。但它深刻理解了世界的几何和物理复杂性。除了能够生成内容外，它实际上还从所训练的视频中学习到了很多关于物理世界的知识。

在展示了一系列早已火爆全网的 Sora 演示视频后，Brooks 开始讲起之前那篇题为“Sora 初体验”的博客文章，文中分享了多个获得 Sora 使用权的艺术家们的创作成果，Tim 提到了 Shy Kids 利用 Sora 制作的“气球人”短片，这些作品充分展示了艺术家们如何利用 Sora 技术表达独特的世界观和生活哲思。Tim 希望 Sora 能够进一步促进内容创作的普及化，帮助更多富有创新精神的个人轻松地将自己的创意转化为实际作品，并与全世界共享。

Brooks：“Sora 并非像 ChatGPT 那样的通用型 AI 产品，而是一个专注于探索技术边界、价值及安全性的研究项目。通过与包括红队在内的多方合作伙伴共同测试，团队旨在深入理解并确保该技术的安全可靠。”

苦涩的教训

Brooks 在演讲中引用了强化学习之父 Rich Sutton 在《苦涩的教训》（The Bitter Lesson）中的观点：“在 AI 发展的道路上，依赖于计算能力的通用方法最终表现优越，并且这种优势随着计算资源的指数级增长而越发显著。”

在《苦涩的教训》原文中，Sutton 援引了计算机国际象棋、计算机围棋、语音识别领域和计算机视觉等领域的多个案例证明这一观点，指出人工智能研究者常常试图模仿人类思维模式构建系统，这种做法在短期内可能奏效，但从长远看会限制技术的进步。真正的突破性成果来自于那些能够利用大规模计算进行搜索和学习的方法。

因此，苦涩的教训在于，过分追求将人类知识内化进 AI 系统可能导致错过真正推动领域发展的路径。Brooks 认识到了算力的重要性，他认为随着时间的推移，我们拥有的算力也在不断增加。如果一种方法能够充分利用这一点，那么它就会变得越来越好。

Sora 的技术细节

Brooks 指出，语言模型的成功原因在于它能够扩展的能力。通过将所有形式的文本数据转化为统一的 Token 表示，并使用 Transformer 模型进行训练，形成了能够处理多种任务的深度语言模型。ChatGPT 等模型因其能够吸收并理解大量多样化的文本数据，从而展现出强大的泛化能力和广泛应用前景。

为了对视觉数据实施类似的语言模型处理方式，Sora 将不同格式、分辨率、纵横比的视频和图像切割成空间时间中的小块（类似于积木），然后在这些小块上训练 Transformer 模型。这种做法使得模型能够适应不同维度和格式的视觉内容，并能够随着计算能力和数据量的增加不断优化性能，进而生成不同纵横比的高质量视频内容。

Sora 模型支持零样本学习，可以将一段视频转换为另一种样式或内容的视频，利用扩散模型（从噪声中逐步恢复真实信号）和 SD 编辑技术，能够在保持原始视频结构的基础上进行创造性编辑，如风格迁移、场景变换等。模型还能实现视频间的平滑过渡，创造出生动自然的效果。Brooks 通过一系列示例，展示了模型如何创造性地将迥异的视觉素材（如无人机视角与水下蝴蝶、罗马斗兽场与水下环境、地中海景观与姜饼屋等）无缝融合在一起，体现了模型对视觉内容深度理解和创造性重组的能力。

Brooks 还展示了一个很酷的应用。首先，用 DALL-E 3 生成了如下这张图像：

然后，用 Sora 让这个图像动起来。

目前，OpenAI 对这类视觉模型的应用探索尚处于初级阶段，所以 Brooks 也鼓励大家查阅相关的博客文章和技术报告，深入了解更多的技术和应用案例。此外，模型还可进行诸如延长或动态化静态图像等有趣的操作，展示了模型在未来视觉内容生成与编辑方面的巨大潜力。

Sora 是怎么通向 AGI 的？

讲解 AGI 的部分接棒给另一位核心作者：Bill Peebles。Peebles 大名 William，本科就读于 MIT，主修计算机科学，参加过 GAN 和 text2video 的研究。他还在英伟达深度学习与自动驾驶等团队实习，研究计算机视觉。

Bill Peebles 强调了以 Sora 为例视频模型在通向通用人工智能（AGI）路径上的重要性。他认为视频模型的发展对于模拟人类互动、理解物理世界以及捕捉复杂情境至关重要。通过 Sora 的表现，团队已经观察到模型在处理和生成复杂视觉场景方面的进步，包括对人类活动、动物行为以及其他智能体在三维空间中的互动的模拟。

Peebles ：“就像 Tim 之前提到的那样，这里面的关键和大语言模型相同——是扩展性。”

随着计算资源的增加，模型展现出了更强的理解和生成能力，例如从无法识别狗到能够生成包含狗在内的精细场景，再到模拟动物的行为细节和 3D 环境的一致性。Peebles 指出，Sora 在未经直接编程的情况下，通过自我学习逐渐理解了 3D 几何结构，这是模型涌现能力的一个体现。

此外，Sora 在处理物体持久性问题上取得了显著进展，意味着在连续生成的视频中，同一物体在不同时间点的状态能够得到恰当的延续。尽管目前在模拟某些物理交互上仍有不足，如处理较复杂的力学现象，但 Sora 已经在模拟现实世界和虚拟环境（如电子游戏 Minecraft）的物理规则方面迈出了重要的一步。

Peebles ：“我们将 Sora 视为视频版的「GPT-1」。”

当前 Sora 还存在局限性，在面对某些复杂物理交互时存在挑战。尽管如此，团队对未来发展的展望充满信心，认为随着研究的深入和模型的迭代，视频模型将极大地推动通用人工智能领域的发展。

观众问答——这可能才是正片

观众：关于 AI 智能体在场景中的理解和互动，这部分信息在 Sora 中是否已经有明确的定义？还是说它仅仅是基于像素层面的处理，需要额外的步骤来解读？

Tim Brooks：非常好的问题。实际上，在 Sora 内部，这些信息是隐含处理的。当我们观察到 Minecraft 样本时，并没有显式地定义智能体在哪里模拟玩家行为或与环境互动。的确，若要精确解析或获取这些信息，可能需要在现有 Sora 架构之上构建附加系统以提取这些信息。目前，大部分机制是隐性的，例如 3D 信息、场景元素等，均非显式编码，而是通过模型自我学习获得。

观众：也就是说，我们所见到的所有酷炫功能，其实都是从模型中推断出来的，而非直接指定。

那关于微调的可能性，假如针对某一特定角色或知识产权，初期可以通过输入图像来引导，你们如何看待将这类定制化组件或功能整合进生成流程中？

Tim Brooks：确实是值得探讨的好问题。我们团队对此非常感兴趣，并已收到不少艺术家希望在创作过程中享有更多控制权的反馈，正如你所提及的，如果他们有特别钟爱且自行设计的角色，会期望在创作新故事时能够继续使用这些角色。因此，针对特定内容进行模型微调是一个我们正在积极探索的方向。尽管目前尚未正式推出此类功能，也并未制定确切的时间表。但如果有针对性的数据集——即用户希望模型适应的内容，理论上是可以进行微调的。我们正在积极收集用户需求，这对未来的开发路线图极具价值。

观众：对于语言 Transformer，通常是按照序列方式进行预测，而在视觉 Transformer 中，是否受限于扫描线顺序或者类似蛇形的空间构建顺序进行预测？预测顺序是否会影响对空间结构的理解？

Tim Brooks：这个问题问得很好。实际上，我们在 Sora 中采用的是扩散模型而非自回归 Transformer。这意味着我们不是通过语言模型那种方式进行逐帧预测，而是从一个全噪声视频开始，通过迭代模型逐步消除噪声，直至得到清晰的样本。在这个过程中，我们并没有严格遵循“扫描线顺序”或其他固定的空间顺序，而是能够同时对视频中的多个时空区域进行去噪处理。大部分情况下，我们会一次性对整个视频进行全局去噪；当然，我们技术报告中也提及了一种可选方案，即先生成较短的视频片段，随后根据需要进行延展。

观众：鉴于互联网上的诸多创新往往源于特殊形式的应用，你们是否考虑将成果回馈至成人类行业？

Bill Peebles：我不认为这是必要的，而且我们还有其他更重要的考量。

观众：视频生成的帧率是每秒 30 帧吗？还是更倾向于在场景中调整帧的持续时间并进行插值处理？

Tim Brooks：我们的视频生成速率确实是每秒 30 帧。

观众：你们是否尝试过生成诸如汽车碰撞或旋转等动态场景，以测试图像生成是否符合物理模型或基本动作原理？

Bill Peebles：我们确实进行了类似汽车碰撞和旋转动作的测试，尽管效果基本合理，但还未完全遵循物理定律。例如，Sora 生成的汽车照明样本表明，它尚未完全掌握牛顿运动定律的细节。

观众：当前 Sora 面临的主要挑战和用户反馈有哪些？

Bill Peebles：现阶段，我们着重于与外部艺术家合作，了解他们的使用体验和反馈意见，并且也非常关注来自“红队”的安全问题反馈。一方面，我们了解到艺术家们渴望获得更多的创作控制权，例如对相机视角和运动轨迹的掌控；另一方面，我们确保在让更多人接触到这款工具的同时，保证其安全性和责任性，防范潜在的滥用风险和假信息生成等问题。

观众：是否有潜力开发出用户可以实时互动的视频，比如通过 VR 设备等方式？例如，在视频播放过程中暂停并修改某些内容，然后视频能否根据这些改动重新生成后续画面？

Bill Peebles：这是一个富有创意的想法。目前，由于 Sora 的运行速度较慢，特别是在延迟方面，要实现这样的体验尚有一定距离。生成一个视频片段通常需要数分钟的时间，即便如此，我们认为朝着这个方向发展是很酷的。

观众：在构建 Sora 的第一版时，你们设定了哪些明确目标？在实施过程中遇到了哪些问题，又从中学到了哪些经验？

Tim Brooks：首要目标一直是能在至少 30 秒内生成 1080p 的视频，从而打破视频生成仅限于 4 秒 GIF 的传统局限。在整个项目周期中，这都是团队的主要聚焦点。过程中，我们深刻体会到处理视频数据的艰巨性，并意识到完成整个系统的高效运作需要大量细致且耗时的工程工作。简化方法并使其易于扩展也是贯穿项目始终的一个重要理念。

观众：发布视频时，你们是否会对提示词进行优化并检查输出效果？如果初始输出不尽人意，是否会更换新的提示词生成新的视频版本？

Tim Brooks：视频的评估确实颇具挑战性。我们采取了多种评估手段，包括但不限于模型的损失值，低损失值通常与良好的模型性能关联；利用图像质量指标对单帧进行评估；同时也投入大量时间手动审查生成的样本，尤其需要注意的是，这不是针对单一提示词的孤立过程，而是涉及大量提示词和对应输出的综合比较，因为输出结果可能存在随机噪声。

观众：关于训练数据，您估计要达到通用人工智能的程度，需要多少训练数据？您认为目前互联网上的数据是否足够支撑这一目标？

Bill Peebles：我认为我们目前拥有的数据量足以实现通用人工智能，并且随着技术的进步，每当遭遇数据限制时，我们总能找到新的方式来提升模型性能。因此，无论目前手上拥有何种数据，只要我们持续创新和改进，都将足够支撑起通用人工智能的研发之路。

免责声明：本文版权归属原作所有，仅代表作者本人观点，不代表YouToCoin的观点或立场，文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担；如有关于内容、版权等问题，请与我们联系。