国际评审认证联合会(IEAU,IUEA)-执职业资格认证|全球证书备案中心|行业评审委员会|社会事务评审认证|世界名人网|世界名商网|纽贝兰教育|潜能开发委员会

◆ 相关新闻列表

俄公司四分之一员工受领导... [5632]

日本一航空公司不满奖金分... [4704]

盘点全球高薪蓝领职业韩... [7305]

俄罗斯将驱逐350名越南... [6548]

花旗集团计划全球范围内裁... [6094]

斯洛文尼亚将实施新退休制... [6443]

日本出台第二轮经济刺激计... [5925]

沙特处罚谎报雇员企业 [5896]

俄出台法律规定外国公民赴... [7503]

韩国女性工资比男性少39... [5792]

松下“瘦身”裁员万人或... [9592]

反紧缩大罢工席卷欧洲 [4128]

日本国家公务员退休金将削... [5831]

BBC员工希望代总裁能掌... [4239]

美国国会再现“女性年” ... [6307]

加拿大移民部长：应客观对... [7028]

沃尔沃将进一步裁员波及... [7423]

美公务机巨头豪客比奇拟关... [6098]

意大利企业雇员平均少于四... [5804]

沙特建筑人工成本为海湾地... [6154]

美国10月失业率7.9%... [5847]

劳动人口剧增印度面临巨... [8574]

西班牙失业率创36年新高... [6358]

日本领取救济金人数连续3... [5816]

索尼日本总部裁员2000... [6235]

四大制造业厂商将培训1.... [6281]

多名UFO专家神秘死亡 ... [8105]

诺基亚裁员潮波及东莞明... [10]

西门子或宣布全球裁员和关... [5745]

大型共同基金寻求控制华尔... [7193]

< 202122 23 24 25 26 >

OpenAI深夜发布，文字直接生成视频！网友：我要失业了

来源：OpenAI 编辑：IEAU新闻中心时间：2/16/2024 点击次数：9729

2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

例如一个Prompt（大语言模型中的提示词）的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里，女士身着黑色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包括从大街景慢慢切入到对女士的脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。

电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历，蓝天、盐漠，电影风格，35毫米胶片拍摄，色彩鲜艳。

AI想象中的龙年春节，红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

竖屏超近景视角下，这只蜥蜴细节拉满：

网友直呼game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

还有网友表示，电影业要彻底颠覆了。

一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”

对于Sora当前存在的弱点，OpenAI也不避讳，指出它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

随后OpenAI解释了Sora的工作原理，Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构，有极强的扩展性。

视频和图像是被称为“补丁”的较小数据单位集合，每个“补丁”都类似于GPT中的一个标记（Token），通过统一的数据表达方式，可以在更广泛的视觉数据上训练和扩散变化，包括不同的时间、分辨率和纵横比。

Sora是基于过去对DALL·E和GPT的研究基础构建，利用DALL·E 3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好的遵循文本指令。

如今，Sora正面向部分成员开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入，期望获得宝贵反馈，以推动模型进步，更好地助力创意工作者。OpenAI提前分享研究进展，旨在与OpenAI以外的人士合作并获取反馈，让公众了解即将到来的AI技术新篇章。