财联社消息,北京时间周二深夜,阿里巴巴正式开源旗下视频生成模型万相2.1模型。顶级前沿模型的开源浪潮,终于涌向由AI驱动的视频创作领域。
这也是本周AI产业“诸神混战”的最新一章。周一美国Anthropic公司意外发布首个混合推理模型Claude 3.7 Sonnet。与此同时,DeepSeek也在持续开源5个代码库,赶忙上架“最强大模型”的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三,将给语音助手Alexa带来“AI升级”。坊间也有传言称,OpenAI可能会在本周推出GPT-4.5。
根据通义介绍,此次开源的是两个版本的模型:14B版本适用于专业创作者迅速上手部署,而1.3B参数量的版本在家用显卡(注:官方给的例子是英伟达4090)上用单卡8.2G显存就能生成480P高质量视频。性能甚至能与某些5B参数量的闭源大模型相媲美。
受此消息影响,阿里巴巴美股盘中异动拉升,带动中概股集体走强。
根据视频生成模型的“大模型排行榜”,万相2.1在VBench基准测试中位居全球第一,力压美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果 STIV等一众国内外竞品。
(来源:huggingface)
而行业领跑者的主动开源,而且是全部推理代码和权重全部开源,意味着视频生成模型赛道将会更加生机勃勃,竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言,生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。
作为全球领先的视频生成模型,万相2.1的技术突破主要体现在两点,首先是能够展现复杂稳定的人物肢体动作,以及精准还原碰撞、反弹等复杂物理场景。这决定了AI生成的视频是否具有足够的真实性。
而且大模型也能驾驭各种风格和题材。
另一个巨大的优势,是万相2.1能够直接通过提示词,在视频中生成中文字(英文字也可以),以及特殊艺术效果。可以想见,随着这个模型的开源,中文AI应用市场又将迎来一波新玩法的升级。
在AI视频中准确生成文字,不论是中文还是英文,是绝大多数竞品目前未能达到的高度。
(来源:OpenAI Sora)
随着万相2.1完全开源,OpenAI、谷歌等竞品也将直面商业化的挑战:更好的模型已经开源了,AI生成视频的定价也将面临挑战。
拖了一整年后,OpenAI去年底终于发布Sora产品,面向每月缴纳20/200美元的订阅用户。同时由于算力不足,暂时没有推出API的计划。谷歌Veo 2模型则在近期披露定价,每生成1秒视频需要付费0.5美元,相当于生成一个小时的视频需要花费1800美元。
原标题:全球AI大混战升温!超越Sora的阿里万相大模型开源 家用显卡都能跑
编辑:陈璐 责编:吴忠兰 审核:阮鹏程
【免责声明】上游新闻客户端未标有“来源:上游新闻”或“上游新闻LOGO、水印的文字、图片、音频、视频”等稿件均为转载稿。如转载稿涉及版权等问题,请 联系上游 。
-
俄对乌发动大规模夜袭
中国新闻网 2025-02-26 08:00:284图 -
乌克兰称与美国达成资源开发协议 特朗普撤回“5000亿美元”诉求
财联社 2025-02-26 07:34:49 -
河南汝州“41人考上事业编被集体清退”:当地疾控中心主任已调整
澎湃新闻 2025-02-26 07:23:41 -
“五折清盘”的风吹到了深圳豪宅板块?业内称“降价后租售比提高”
每日经济新闻 2025-02-26 01:08:032图 -
美国“政府效率部”21名工作人员辞职 称不愿帮助削减政府规模
央视新闻客户端 2025-02-26 00:13:19 -
人类的“终极能源”,真的要来了?
中国新闻周刊 2025-02-25 22:38:391图 -
乌议会通过禁止战时选举议案 支持泽连斯基继续履职
新华社 2025-02-25 22:14:09 -
湖北省委书记王忠林调研大模型初创企业,00后创始人曾称“超越雷军”
政知见 2025-02-25 20:32:364图 -
泰国切断边境可疑通信和网络信号 与中缅合作打击电诈
央视新闻客户端 2025-02-25 19:52:131图 -
袁家军会见阿里巴巴集团首席执行官吴泳铭一行
新重庆-重庆日报 2025-02-25 19:51:282图 -
打车18公里被司机收取581元,警方:涉事司机涉嫌敲诈勒索被行拘
@广州番禺公安 2025-02-25 19:44:231图 -
湖南沅陵县两船相撞:客船19人落水,已搜救上岸5人其中2人遇难
@新华社 2025-02-25 19:30:54