· · ·
科技的日新月异总是让人战栗。
还没出正月,就又被科技圈贴脸开大了。
先是英伟达推出Chat With RTX,将每个人的电脑变成本地化系统大模型,紧接着谷歌AI推出Gemni1.5版本,最高支持100万tokens的上下文。
如果说这两件事只是在业界内部掀起腥风血雨,离普通人生活还远着呢。
那已经有封神作品Chatgpt的OpenAI就是奔着“干掉所有人”来的,和Gemni1.5同天发布的文字生成视频大模型Sora,只需输入文字,就可以生成一段长达60秒的高清视频。不仅让马斯克感叹:“gg humans。”还让周鸿祎放话:“AGI(通用人工智能)的实现将从10年缩短到1年。”
影视工作者们又开始新一轮的失业焦虑,而上一次集体焦虑的是去年年初面对Chatgpt的文字工作者。
不过话说回来,文生视频大模型也不是第一次出现了,Sora为什么能打败一众对手,成为里程碑?AGI时代真的马上就要降临了吗?当AI逐渐渗透生活,代替工作,我们又该怎么办?
Sora为什么这么猛?
就像开头提到的,Sora并非首个文生视频大模型。据不完全统计,截至去年年底,全球能实现文本生成视频的大模型包括Runway、Pika、Stable Video Diffusion等20多个产品。
那为什么Sora的诞生仍然被称为里程碑呢?
对比来看,Sora的特别之处在于以下三个方面:
1.超长生成时间。Sora支持60s视频生成,而且一镜到底,不仅主人物稳定,背景中的人物表现也十分稳定,可以从大中景无缝切换到脸部特写。
而在此之前,AI视频工具都还在突破几秒内的连贯性,即使是Runway和Pika这样的“明星模型”,生成的视频长度也仅有3到4秒,Sora的时常可以说已经达到了史诗级的记录。
2.单视频多角度镜头。Sora可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。
在OpenAI的展示视频中一只狼对着月亮嚎叫,感到孤独,直到它找到狼群,多镜头无缝切换都保持了主体的一致。
3.理解物理世界。最重要的是,Sora不仅理解用户在提示中要求的内容,还能自己理解这些事物在现实世界中的存在方式。
比如画家在画布上留下笔触,或者人物在吃食物时留下痕迹。火车穿过东京郊区,随着车窗内外光线环境和物体的变化,车窗上倒影的变化也几乎被按照现实世界的物理规律完美还原了出来。
而在技术方面,Sora打破了此前扩散模型局限性。Sora采用的是 DALL·E 3 的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频,还能够为现有图片赋予动态效果或延伸视频内容的长度。
也就是说,只需要一句话,Sora就能生产出一条高质量的短视频,甚至还能够根据静态图像生成视频,拓展现有视频或填充缺失的帧。
这也是Sora最炸裂的点,我们已经习以为常用大模型创造出不存在的事物,但是能够准确地理解物理世界运转逻辑,这些都是以前任何模型都无法完成的事情。
Sora所具备的模拟物理世界和数字世界的能力或将加快世界模型的实现进程,这一功能将成为实现AGI的重要里程碑。
AGI马上就要实现了?
那是否真的像360创始人周鸿祎说的一样,Sora的诞生意味着AGI实现可能从10年缩短至一两年呢?
在业内专家看来,这个观点有点过于乐观。
就说Sora本身也不是那么完美,还存在一堆BUG,比如难以准确模拟复杂场景的物理原理,可能无法理解因果关系,还可能混淆文字提示的空间细节,也可能难以精确描述随时间推移发生的事件。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的视频,狼的数量会变化,一些凭空出现或消失。
而且聊的这么热闹的Sora并未向公众开放,就连在在OpenAI的官网上,关于Sora的内容也是放入的research研究这个栏目,而不是产品的栏目,换句话说Sora还不能算是一个成熟的产品。
与文本对话和图片生成相比,按照现在技术路线描述的情况来看,Sora虽然在训练模型上不需要太多参数,但实际应用由于推理生产视频过程中将涉及较大数据量的计算,同时为追求较高的视频生成效果,训练和推理过程中都需要进行尽量多次数的迭代计算,将释放大量算力需求。
Sora想要大规模商用,训练成本高昂、高质量数据集的缺乏都是需要跨越的门槛。
另外,就是AI在社会层面的几个老生常谈问题,隐私安全、虚假信息、价值观偏差、滥用造成的道德和伦理风险以及知识产权。
不能否认Sora的出现无疑是AI发展的一个巨大成功,但它模糊的现实与AI界限也会面临被用来“深度伪造”的风险。
而AGI旨在创建一个具有广泛认知能力的智能体,它不仅能执行特定的指令或解决特定问题,还能理解复杂的环境并适应新情况,就像人类智能一样。
Sora的出现的确为未来AGI提供了基础,开启了理解物理世界的第一阶段,可以说是实现AGI的一个中间步骤或关键技术,但它本身并不等于AGI,AGI的实现还需要跨越更多技术和认知障碍,包括深度理解、泛化能力、自我改进等。
人类应该怎么办?
最近几十年来,人工智能领域带来的震撼不断。
从“深蓝”计算机1997年5月击败国际象棋世界冠军,到Alpha Go2016年3月战胜围棋世界冠军;从ChatGPT到Gemini,再到现在的Sora,每一次革新都可以说是喜忧参半。
人们一方面感叹于技术的进步,享受带来的便利,另一方面又担心AI变得越来越聪明,它可能会在很多领域超越我们,甚至可能在改变世界的能力上也超过我们。
但是一个围绕虚拟与人工智能的时代正以不可逆的架势向我们袭来,并不能因为担心就停下前进的脚步。
就像蒸汽机、发电机的发明会解放生产力,会淘汰掉旧生产线上的工人,也会创造新的工作机会一样,AI不也是个工具,同样会顶替一些重复性的、缺少技术含量的工作,但使用工具的还不是人。
况且目前的人工智能技术大部分还处于认识世界的阶段。无论是ChatGPT、Gemini还是Sora,都只是提高了人工智能对世界的认识水平,并不能超越人类整体,我们还有大把时间去研究、学习、掌握使用方式。
毕竟,科技的最终目标应该是让人类的生活变得更好,而不是取代我们。
所以,科技的发展就像是一场马拉松,它在不断地推动我们前进,我们既要学会享受这个过程,也要准备好迎接它带来的挑战。
打不过就加入嘛~