400-123-4657

新闻资讯分类
深度丨风起大模型:国内大厂“应战”Sora发布日期:2024-09-03 浏览次数:

  珠玉在前,国内谁能最先做出“国产版Sora”,又或者另辟蹊径,走出AI视频的新路子?到底是会被全盘碾压,还是各自找到合适的生态位?Sora的阴影之下,国内大厂同类产品还会有生存余地吗?

  纵观国内大厂,尚未出现产品能与Sora匹敌的迹象。但应用并非轨道,而是旷野。

  近日,阿里巴巴集团智能计算研究所推出了EMO(Emote Portrait Alive)——一款由音频驱动的肖像-视频生成框架。在这个应用中,奥黛丽·赫本开始“唱歌”,蒙娜丽莎会“说话”了。

  而在Sora发布以前,字节跳动曾低调推出了视频模型Boximator,但坚决否认这是“中文版Sora”;再往前看,百度也曾推出过“度加”创作工具,以AI辅助人工进行视频制作。

  另一方面,Sora也托起了国内相关概念股,如万兴科技、因赛集团等,在Sora发布后,相关股票迎来了明显上涨,这些公司的着力点落在泛娱乐、泛营销等领域。

  国内针对Sora评论最为活跃的企业家是360创始人周鸿祎,他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从十年缩短至一两年,国内相似AI产品的差距还在继续拉大。

  一位深度跟踪AI产业的投资人看法,或许带来了新的思考方向。他认为:“其他公司不要跟巨头在同一条道上竞速,肯定是跑不过的,要寻找更多可能性。”

  Sora问世之后,公众试图从国内大厂的产品中寻找“宛宛类卿”的身影。字节跳动发布的一款视频模型技术,就曾被冠上“中文版Sora”的名头。

  但字节跳动随后就做出了回应,称Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,“而且距离国外领先的视频生成模型,在画面质量、保真率、视频时长等方面还有很大差距。”

  具体来看,Boximator可以通过文本控制生成视频中人物或物体的动作,但并非直接根据输入的文本生成视频,而是按照文字提示将静态图片动态化。

  Boximator主要用于解决视频合成中的“运动控制”问题。用户使用硬框在条件帧中选择对象,然后使用任一类型的框来粗略或严格地定义对象在将来的帧中的位置、形状或运动路径。例如分别勾画出红球和小狗的运动轨迹,使“小狗追逐红球”这一动作得以实现。

  Boximator的研发团队利用WebVid-10M数据集进行深度训练,从中筛选出110万段动态明显的视频片段,并为其注释了220万个对象的边界框。论文显示,Boximator 生成的动画在完整性、准确性和物理效果上比Pika 1.0和Gen-2更胜一筹。尽管目前仍处于研发阶段,但预计将在未来2-3个月内发布测试网站,供公众体验。

  Boximator的基础之一是此前字节团队发布的MagicAnimate(人体动作方面)的研究成果。今年1月,字节跳动研究人员在arXiv上发表了MagicVideo-V2的论文,这也是一款文本生成视频的模型,通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现从文字到视频的自动化生成。MagicVideo-V2想要解决的是Runway、Pika等模型在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等问题。

  如果说字节的Boximator使目标主题的“运动”更加合理流畅,那么阿里的EMO就是让图片学会“说话”。

  在arXiv的官网上可以看到,距离Sora推出后两周不到,阿里团队即发布了肖像-视频大模型EMO的论文。研究所表示,此项研究解决了人物说话时头部视频生成的真实感和表现力不足的问题。EMO重点关注音频线索和面部运动之间的动态和细微关系,利用直接的音频到视频的合成方法,绕过中间的3D模型或面部地标的需要,可以确保无缝的帧转换,使该人物形象能在整个视频中完整一致,从而产生极具表现力和逼真的动画。

  阿里团队在论文中介绍了EMO的运行技术。EMO框架主要由两个阶段构成,在初始阶段(帧编码)中从参考对象和运动帧中提取特征,在随后的扩散阶段中运用预训练的音频编码器处理音频嵌入。阿里将人脸区域掩模与多帧噪声相结合,实现了人脸图像的生成,并采用了骨干网络以方便进行去噪操作。此外,还利用了时间模块来处理时间维度,并调整运动速度。

  与Wav2Lip、SadTalker、GT等其它模型方法相比,EMO在单帧质量和面部表情生动度的表现上比较突出。但作者也在论文中表示,与不依赖于扩散模型的方法相比,EMO耗时更多。且由于模拟训练过程中没有使用任何明确的控制信号来控制角色的运动,可能会导致伪影的出现。

  据不完全统计,截至目前,国内已有超15家企业推出了视频生成工具,以字节、阿里为代表的大厂和以爱诗科技、生数科技为代表的创企们,推出的视频生成工具在语义理解、运动流畅度、成像质量等方面各有千秋。

  Sora的推出可谓是“一石激起千层浪”,从“更好地动起来”到“会说话唱歌”,国内大厂和各家创企后续 “应战”难度无疑被大幅拉升。

  拥有抖音的字节跳动,在文生视频大模型训练上有天然的数据优势。但与此同,Sora的出现,正在给字节跳动带来巨大的“未知”,无论是抖音还是剪映,在短视频领域都无法忽视Sora所带来的颠覆性影响。

  惊艳的官宣之后,Sora新视频还在TikTok上持续推出,且TikTok是独家放送渠道。逼真的动画效果,让网友惊呼“根本想象不到刚刚滑过去的视频是AI生成的。”

  不可否认,Sora对短视频行业产生的冲击,不只包括为短视频平台提供更加丰富的供给,也包括增加短视频平台治理难度,识别深度伪造、版权纠纷的难度将被加大。

  而在视频AI辅助工具方面,Sora将拉低普通人创作视频的门槛。当更多人倾向于选择门槛更低,但效果更好的平台时,目前市面上的AI视频工具可能会被淘汰,比如,剪映、快影的用户,将可能被抢走。

  字节对AI事业是有焦虑的。今年1月30日,字节跳动CEO梁汝波在公司年度全员会直言,公司直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在 2018 年至 2021 年创立的,并多次强调“危机感”。

  字节跳动从去年开始布局 AI,2023年11月成立专注于AI创新业务的新部门Flow。据悉,Flow部门技术负责人为字节跳动技术副总裁洪定坤。而字节跳动创始人张一鸣亲自牵头,将去年一年的时间几乎全都花在了AI 上,从其精力分配上也可以看到字节跳动对AI业务的重视程度。

  巧合的是,在Sora问世一周前,字节跳动宣布了一项人事变动:原抖音集团CEO张楠辞去集团CEO一职,未来将把精力聚焦在剪映的发展上。从抖音转到剪映,字节不愿错过AI视频的关键风口。据悉,张楠正亲自带队寻求在AI辅助创作上有所突破,并计划推出一个AI生成和视频的产品,但字节对此未做更多披露。

  张一鸣在2023年公开信中提到,字节跳动无法错过AGI(通用人工智能),并表示AGI可以解决字节跳动的第二曲线增长困境。字节在GPT的赛道上已经稍显落后,这次在AI文生视频领域能否抓住机遇、“釜底抽薪”实现自身短视频业务的创新和再次增长,仍需观望。

  阿里近期也是动作不断,短短4个月内连发6个新项目,持续探索AI视频领域。2023年11月,开源了依据图像和文字生成高质量视频的I2VGen-XL,同月发布了能让图中角色跳舞的AnimateAnyone;2023年12月9日发布了能够让图中角色在任意地点跳舞的DreaMoving,同月与清华大学、华中科技大学等联合发布了生成富有表现力头像的DreamTalk,此外还发布了使用无文本视频学习的TF-T2V;今年1月,阿里发布了使用3D模型替换视频角色的Motionshop。其中,DreamTalk可以被视为EMO的前身。

  阿里的模型和Sora相比,更加注重视频生成模型在具体行业的应用,其重点关注人物神态、跳舞等运动的细节,在影视、游戏等领域有广泛的应用前景。但正因此,涉及肖像侵权、被使用在不法路径的风险也会加大。

  除字节和阿里外,百度在AI视频领域也有自己的规划部署。去年百度推出过文生视频工具“度加剪辑”,主要功能包括AI文案、AI提词、智能字幕,快速剪辑、AI数字人等,主要是以AI辅助视频剪辑,为创作者提供便利,在导入素材后提高视频剪辑效率和观赏度,并不能直接根据文本生成视频。

  和度加剪辑相搭配,百度还推出了“度加创作工具”,和剪映的“图文成片”类似,可以自己直接通过AI生成文案,或者自己撰写文章,度加提供“AI润色”和“AI扩写”功能,语言较流畅,多采用“三段论”结构。之后平台会直接识别文字、提供可选择的视频素材,以静态图片变换为主。在百度搜索引擎的加持下,AI匹配的素材较丰富。但据部分使用者体验,度加在素材和文案的贴合度上还需提高。

  点击“一键成片”之后会自动生成视频。在视频编辑页面,度加会智能推荐新的素材,同时素材库有视频片段可以替换,比较便捷。视频生成之后,只能发布于百家号。

  不过,百度联合创始人兼首席执行官李彦宏近日在财报电话会上曾对AI领域话题有过回应,他表示,包括文本、音频和视频类的多模态大模型,是未来基础模型开发的重要方向,也是AGI的必经之路,百度已经在这一领域进行了投资,并将在未来持续投入。

  “大语言模型的市场是巨大的,而且现在还处于非常早期的阶段,即便是最强大的语言模型,对许多应用程序来说,依然不够好,还有很大的创新空间。”李彦宏说,百度致力于让更多企业更容易地获得大模型服务,以解决各种场景中的现实问题。

  他还特别强调了自动驾驶是视觉大模型重要的应用领域,百度一直在训练自动驾驶系统的视频生成模型,从而产生更智能、适应性更强、更安全的自动驾驶技术。

  21世纪经济报道记者注意到,百度在AI领域的业务动作,更注重AI工具与实际应用的结合,关注AI工具的实际落地,“希望AI技术是人人可用的”。

  Sora的发布,无疑给国内大厂造成了不小的压力,但换个角度想,或许也为各公司提供了一个行之有效的解题方向。

  “我们可能也高估了Sora的泛化能力,到底怎么落到应用中去,还不明确。”一位AI视频创业人士认为,国内大厂在AI工具的应用上,还有作业空间。

  近来,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信等10 余家A 股上市公司,都曾披露过公司涉足视频生成模型领域的业务情况。

  华策影视透露,公司的技术储备已可实现4秒时长的文生视频,自研的编剧助手、剧本评估、视频检索、AI剧照等功能已在内部应用或内测。与Sora目前60s的文生视频时长相比,华策影视现有技术还存在差距。

  连拉三个涨停板的因赛集团向投资者给出了“公司对于Sora的看法”等问题的答复。因赛集团表示,公司自研的Insight GPT属于营销行业应用层垂类模型,与Sora这类底层通用大模型并不属于直接竞争关系,反而可以结合Sora等通用大模型丰富自身视频素材库以及提升视频生成效率和品质,对于Sora的出现持乐观态度。

  但也有多家上市公司公告澄清,并无Sora相关业务布局。睿能科技、国脉文化、华扬联众、维海德等多家公司均发布股票交易异常波动公告。其中,睿能科技称,公司核心技术和产品不涉及SRAM芯片、Sora等热点概念;国脉文化、华扬联众表示,公司主营业务中暂未涉及Sora业务;维海德称,公司不涉及文生视频技术和产品,近期也没有从事AI大模型业务的布局。

  另有上市公司因涉嫌蹭“Sora概念”被交易所问询。中科金财借与微软的合作,声称“可率先申请并获得Sora API订阅资格”,并由此收获了涨停板。对此,深交所要求该公司说明是否存在蹭热点概念股炒作股价的情况。中科金财回复称,公司与微软中国的合作系非独家合作,未来能否快速发展并取得预期的收入存在较大不确定性。

  截至3月8日,涉及Sora概念的公司,多在Sora发布的一周内收获了不错的股价涨幅,并在后续有所回调。值得注意的是,今年的“Sora概念股”所涉上市公司,部分也在去年因ChatGPT有过一轮股价上涨,并在去年年中回落。

  今年开年,“大模型技术提振二级市场表现”的场景重现,不知后续是否会重演相关概念股股价下跌情形。有从业人士感慨,如果相关公司在技术上没有实质性突破,股价涨跌也只是一阵“风”。

  IDC中国研究总监卢言霞认为,Sora在文生视频领域真正迈出了第一步,真正做到生成式AI驱动生成短视频。接下来也将刺激其他科技巨头加快在该领域的技术攻关力度以及产品发布速度。要全面打开生成式AI的想象力,还是要依托多模态大模型。Sora的发布,以及后续科技巨头的跟进,有望对AI产业带来再一轮爆发式的增长。

  AI视频赛道是极具未来意义的,AI对行业的颠覆性意义正在时间推进中被验证。

  前述投资人士表示:“AI视频领域还有很多产业机会,视频的后处理也有一番天地。比如剪映,随着前面生产的AI内容产生量变,剪辑工具的作用也会变得重要起来。”

  如周鸿祎所言,Sora的成功证明了技术方向的正确性,OpenAI走对了方向,一旦方向感确定,国内公司会快速迎头赶上。

  “但是做AI大模型,极其烧钱。”另有AI创业者向21世纪经济报道记者感慨:“资金和算力,在制约着国内公司的脚步。”