您现在的位置是：首页 > 海外资讯

正文内容

[OpenAI]: sora是什么意思 Sora是怎么训练出来的[多图]

OpenAI

来源：花妖坊游戏网时间： 2024-02-19 17:46:21 海外资讯阅读：4167次

OpenAIsora什么样用？良多人还不略知一二这完完全全是何以，这次我辈就基本点来谈谈一晃儿以此点子，想要清楚OpenAI sora的年轻人伴，醇美争先细瞧下部玩耍鸟小编拉动的说明，一本

OpenAIsora什么样用？良多人还不略知一二这完完全全是何以，这次我辈就基本点来谈谈一晃儿以此点子，想要清楚OpenAI sora的年轻人伴，醇美争先细瞧下部玩耍鸟小编拉动的说明，一本万利大家伙儿更好的清楚Sora是该当何论教练的，详实的请争先来小编这边清楚一晃儿。

OpenAI sora是何以别有情趣

OpenAI网站上的技巧呈子，基本点提供了教练Sora的了局，以及对其力量平手限性的定性评估。技巧呈子的13位起草人中，有4位唐人。呈子也一览无遗地说，不提供模子和心想事成麻烦事。愈益是民众和总监最体贴入微的数据泉源。然而，这篇呈子所罗列的32篇参考舆论，久已提供了满贯的了局和技巧。OpenAI用一句话简而言之：“我辈采用了一种在视频和图像潜码的时空块上操作的transformer架构”。切实可行点说纵令：这帮大牛教练了一个发网，用以下挫视觉数据的维度。多多专门家觉着其视频泉源是Youtube。以此发网以自发视频为进口，出口一个在韶华和上空上都被节减的暗昧代表。Sora在以此节减的暗昧上空内接过教练，跟着也在此上空内变型视频。他俩还教练了一个活该的解码器模子，将变型的潜码映照回像素上空。合宜宽解四个转捩点词：潜码(latent code)，时空块(spacetime patches)，恢宏 (scaling)，通用人云亦云器 (general purpose simulators)。多多先头的酌定久已穿越各种了局酌定了视频数据的变型模子，牢笼周而复始发网、变型顽抗发网、自回归易位器和传回模子。这些劳作常见令人瞩目于视觉数据的一个湫隘品种、较短的视频，还是稳住大大小小的视频。Sora是一个视觉数据的通用模子——它醇美变型超常敌众我寡余波未停韶华、宽高比和辩解率的视频和图像，最长可达一分钟的高清视频。Sora是一个传回模子;给定进口的噪声块(和格木音尘，如等因奉此抛砖引玉)，它被教练用以预后始发的“清爽”块。基本点的是，Sora是一个传回Transformer，在多个锦绣河山出示了无可争辩的恢宏通性，牢笼言语建模、试图机视觉和图像变型。Sora亦可恰切宽屏1920x1080p视频、竖屏1080x1920视频以及它们里面的满贯格式。这对症Sora亦可直白以敌众我寡装备的原生宽高比创设本末。它还同意我辈在运用亦然模子以全辩解率变型先头，不会儿原型化较小深浅的本末。简简单单地说，OpenAI群蚁附膻了原先的技巧，而里边的每一项技巧，都有过舆论说明，OpenAI在先辈及同行酌定的基本功如上，构建出Sora，一个出格基本点的来由，是他俩无庸置疑数据-Transformer-恢宏-涌现这一公例。下部是满贯的参考舆论及其为Sora所用之处：

Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "运用LSTMs开展视频代表的无监控上学." 国际机械上学集会. PMLR, 2015.

Chiappa, Silvia, 等. "周而复始条件人云亦云器." arXiv预印本 arXiv:1704.02254 (2017).

Ha, David, 和 Jürgen Schmidhuber. "大地模子." arXiv预印本 arXiv:1803.10122 (2018).

(注：1-3，多多先头的酌定久已穿越各种了局酌定了视频数据的变型模子，牢笼周而复始发网 )

Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "变型存有此情此景动态的视频." 神经音尘处事体系开展 29 (2016).

Tulyakov, Sergey, 等. "MoCoGAN: 释疑举手投足和本末以变型视频." IEEE试图机视觉和模式辨识集会舆论集. 2018.

Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在犬牙交错数据集上变型顽抗视频." arXiv预印本 arXiv:1907.06571 (2019).

Brooks, Tim, 等. "变型动态此情此景的长视频." 神经音尘处事体系集会开展 35 (2022): 31769-31781.

(注：4-7，变型顽抗发网的了局与技巧)

Yan, Wilson, 等. "VideoGPT: 运用VQ-VAE和transformers变型视频." arXiv预印本 arXiv:2104.10157 (2021).

Wu, Chenfei, 等. "Nüwa: 为创导神经视觉大地开展视觉合成预教练." 欧洲试图机视觉集会. 瑞士: 施普林格任其自然, 2022.

(注：8-9，自回归Transformer )

Ho, Jonathan, 等. "Imagen视频: 运用传回模子变型高清视频." arXiv预印本 arXiv:2210.02303 (2022).

Blattmann, Andreas, 等. "对齐你的潜码: 运用暗昧传回模子合成高辩解率视频." IEEE/CVF试图机视觉和模式辨识集会舆论集. 2023.

Gupta, Agrim, 等. "运用传回模子变型无可争议视频." arXiv预印本 arXiv:2312.06662 (2023).

(注：10-12，传回模子，该当何论无可争议)

Vaswani, Ashish, 等. "检点力纵令你所特需的全总." 神经音尘处事体系开展 30 (2017).

Brown, Tom, 等. "言语模子是小样张上学者." 神经音尘处事体系集会开展 33 (2020): 1877-1901.

(注：13-14 ，起草人从特大型言语模子中遭到的诱发是，穿越对大一统网级数据开展教练，醇美博取通用力量。)

Dosovitskiy, Alexey, 等. "一幅图像值16x16个词: 大面积图像辨识的transformers." arXiv预印本 arXiv:2010.11929 (2020).

Arnab, Anurag, 等. "Vivit: 视频视觉transformer." IEEE/CVF国际试图机视觉集会舆论集. 2021.

He, Kaiming, 等. "掩码半自动编码器是可恢宏的视觉上学者." IEEE/CVF试图机视觉和模式辨识集会舆论集. 2022.

Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 老少咸宜于万事宽高比和辩解率的视觉transformer." arXiv预印本 arXiv:2307.06304 (2023).

(注：15-18，Transformer久已被关系在在试图机视觉中显摆出别致的恢宏特性，能教练出老少咸宜于万事宽高比和辩解率的视频)

Rombach, Robin, 等. "运用暗昧传回模子合成高辩解率图像." IEEE/CVF试图机视觉和模式辨识集会舆论集. 2022.

(注：穿越把视频节减改为低维度的潜码上空，把视频易位为时空块 )

OpenAI sora是什么意思 Sora是怎么训练出来的[多图]图片1

把视觉数据变为时空块

Kingma, Diederik P., 和 Max Welling. "自编码变分贝叶斯." arXiv预印本 arXiv:1312.6114 (2013).

(注：教练出一个能滑坡视觉维度数据的发网)

Sohl-Dickstein, Jascha, 等. "运用非失衡热呼呼学的吃水无监控上学." 国际机械上学集会. PMLR, 2015.

Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪传回票房价值模子." 神经音尘处事体系开展 33 (2020): 6840-6851.

Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "渐入佳境的去噪传回票房价值模子." 国际机械上学集会. PMLR, 2021.

Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "传回模子在图像合成上胜过GANs." 神经音尘处事体系集会开展. 2021.

Karras, Tero, 等. "表明据悉传回的变型模子的企划上空." 神经音尘处事体系开展 35 (2022): 26565-26577.

(注：21-25， Sora是一个传回模子，给定进口的噪声块(和格木音尘，如等因奉此抛砖引玉)，它被教练用以预后始发的“清爽”块 )

Peebles, William, 和 Saining Xie. "用transformers恢宏传回模子." IEEE/CVF国际试图机视觉集会舆论集. 2023.

(注：Sora是一个传回Transformer)

OpenAI sora是什么意思 Sora是怎么训练出来的[多图]图片2

Transformer超常敌众我寡的模态，其恢宏效应照旧卓有成效

Chen, Mark, 等. "像素的变型预教练." 国际机械上学集会. PMLR, 2020.

Ramesh, Aditya, 等. "零样张等因奉此到图像变型." 国际机械上学集会. PMLR, 2021.

(注：27-28，Transformer在图像变型地方存有别致的恢宏特性)

Yu, Jiahui, 等. "恢宏自回归模子以变型本末充实的文生图." arXiv预印本 arXiv:2206.10789 2.3 (2022): 5.

Betker, James, 等. "用更好的图鉴改进图像变型." 试图机正确性. https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8

(注：29-30，运用了Dall.E3的字幕和题名技巧，用以视频)

Ramesh, Aditya, 等. "运用CLIP潜码的分层等因奉此格木图像变型." arXiv预印本 arXiv:2204.06125 1.2 (2022): 3.

(注：30-31，用Dall.E2和Dall.E3图像变型视频)

Meng, Chenlin, 等. "Sdedit: 运用随机微分方程的指引图像合成和编者." arXiv预印本 arXiv:2108.01073 (2021).

(责任编辑：星月不相逢)

花妖坊游戏网

正文内容

[OpenAI]: sora是什么意思 Sora是怎么训练出来的[多图]

[绝地求生]:2.21更新公告2024 pubg2月21日更新时间内容一览[多图]

[金铲铲之战]:玉剑摄魂莫甘娜阵容推荐玉剑摄魂莫甘娜阵容装备搭配攻略[多图]

相关文章

文章评论

留言与评论（共有条评论）

正文内容

[OpenAI]: sora是什么意思 Sora是怎么训练出来的[多图]

[绝地求生]:2.21更新公告2024 pubg2月21日更新时间内容一览[多图]

[金铲铲之战]:玉剑摄魂莫甘娜阵容推荐 玉剑摄魂莫甘娜阵容装备搭配攻略[多图]

相关文章

文章评论

留言与评论（共有 条评论）

[金铲铲之战]:玉剑摄魂莫甘娜阵容推荐玉剑摄魂莫甘娜阵容装备搭配攻略[多图]

留言与评论（共有条评论）