南宫28这个中国团队发起了一个Open-Sora计划复现Sora视频生成模型,是当前很多大模型技术和创业团队想要实现的任务。而一支来自中国的团队,正在召集来自全世界的“同盟”和“友军”,试图集结大家的力量,加速这一目标的实现。
3月12日下午,北京大学深圳研究生院—兔展智能AIGC联合实验室(以下简称“联合实验室”)在深圳举行了Open-Sora开源计划说明会。据介绍,Open-Sora开源计划旨在通过开源社区的力量复现Sora模型。由于资源有限,团队目前仅搭建了基础架构,还无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练南宫28。
据联合实验室介绍,Sora模型发布以后,团队就在全球知名开源社区Github上发布了Open-Sora计划,吸引了国际广泛关注和转发南宫28,来自德国、伊朗、澳大利亚、新加坡等不同国家的技术大咖都纷纷积极参与和贡献,已获得14万的访问量,5000余名程序员给这个项目点“星”。
“技术是无国界的,我们想做的就是开源,让大家一起参与,共享和使用Open-Sora计划的成果。”联合实验室副主任、北京大学信息工程学院助理教授博士生导师袁粒在说明会上表示。
今年2月16日,OpenAI发布了首个文生视频模型Sora。用户可以通过输入自然语言提示词,生成长达1分钟的视频。视频不仅包括高度清晰的场景、复杂的镜头动作,还可以可支持多个角色的创作,效果流畅逼真,保持着高度的一致性。
在东京街头自在行走的女子、雪地上打滚嬉戏的小狗、暗夜里对着月亮长嚎的狼群……OpenAI在官网中放出的48个视频样片效果超越了Runway、Pika等AI视频创业公司,展现了Sora模型的强大,引发全球科技圈的广泛关注。
然而,由于OpenAI选择了闭源Sora,后续发布的技术报告也并未透露模型训练的细节,因此没有人知道这些强大的效果是如何实现的。近期南宫28,马斯克与OpenAI陷入了诉讼纠纷。双方的主要矛盾点,就是OpenAI从最初选择开源的非营利性组织转向了闭源路线的、带有明显商业化目标的公司。这也让生成式人工智能的开源与闭源路线之争再度打响。
“OpenAI原本的使命是用开放的人工智能造福人类社会,但如今无论是ChatGPT还是Sora,都已经闭源,变成了Close AI、Close Sora。”兔展智能创始人兼CEO董少灵在接受证券时报记者采访时表示,联合实验室发起Open-Sora计划,并已初步搭建起了一个有效可行的技术框架,且完全开源。此举正是希望为全球提供另外一个选项,传递一种信心。“中国的机构是有能力搭建起底层技术框架的。我们在技术上不落后,在路径上非常有希望,希望更多人参与到计划中来,并从中受益。”董少灵说。
在说明会现场,袁粒作为计划发起人之一,介绍了Open-Sora开源计划的技术逻辑和发起这一计划的目标。袁粒表示,Open-Sora计划希望聚集开源社区力量复现出一版开源的TinySora(小Sora)。实现这一目标分为三个阶段,目前团队已经搭建起了由三部分组成的Open-Sora底层框架,并初步验证了当前框架的有效性,基本实现了第一阶段的目标。
在第二阶段,联合实验室希望在有效框架基础上训练更多数据和更大算力,训练出生成20秒以上,清晰度为720P的模型;第三阶段,希望能拓展生成的泛化性、场景的多样性,更加逼近Sora的时长和效果。“不过,第三阶段难度较大,算力缺口也很大,数据要求极高,所以仅作为Open-Sora计划的拓展目标。”袁粒表示。
袁粒在接受证券时报记者采访时表示,通过发布Open-Sora计划,希望得到的开源社区支持主要有三方面:一是算法优化,凝聚开源社区中全球算法工程师的力量,群策群力,共同优化模型框架和代码;二是算力支持,要实现第二阶段的目标,目前芯片缺口在数百卡级,显卡缺口预计百卡左右,需要集合开源社区的算力资源;三是数据支持,希望吸引产业方贡献一些私有数据,促进模型的优化。
据介绍,Open-Sora计划由北京大学深圳研究生院—兔展智能AIGC联合实验室发起。该实验室是北京大学和行业领军企业在深圳做出领先的科创机制,聚合了兔展智能充沛算力支持、海量数据资产、优秀研发团队等优势,结合北京大学顶尖的科研力量和长期积累的技术积淀,打造科研与产业深度供应的新范式。
Sora视频生成模型发布后,业界普遍认为这一工具将对短视频、广告、影视等行业带来直接冲击。大家对Sora的讨论,也更多集中在视频生成领域。
在董少灵看来,虽然Sora模型表面上是一个文生视频工具,但视觉大模型的终极目标,绝对不是为了生成娱乐用途的视频。“我们不想做抖音,因为这条路走到极限也只是‘抖音下一代’,让每个人都可以低成本生成高质量的视频而已。这不是我们的所思所想,我们希望深植中国产业,赋能中国产业升级。”董少灵说。
董少灵创办的兔展智能,是国内最早的H5零代码编辑平台之一,目前已发展成中国生成式AI内容引擎与营销云核心平台,正积极推动新一代AI能力应用到AI生成文案、AI生成素材、AI推荐产品库等营销场景中。
今年的全国上,政府工作报告首次提出了开展“人工智能+”行动,董少灵对此也有自己的思考。他告诉记者,视觉大模型如何跟中国产业深度结合、发挥价值,让产业供给与用户需求更精准地匹配,这是兔展智能做视觉大模型的方向与目标。据介绍,公司自主研发的“兔灵”视觉大模型以图像视觉为核心,能够作为一种AI设计工具,让产品变得更加符合消费者的个性化需求,促进供给端与消费端更良性的循环。
举例而言,“兔灵”视觉大模型可深度赋能室内设计,带动下游产业发展。在室内设计的传统流程中,每页方案约3000元,物料设计价格为500元/个。经AI优化以后,只需要向大模型输入想要的设计风格文字,比如“一个现代风格的客厅,整个空间采用中性色调,搭配自然的木质元素和石材纹理,营造出简洁而温馨的氛围。”大模型即可生成相关的AI效果图,还可以自动推荐效果图中的匹配物料,将每页方案成本降低为100元,并省去物料设计费用。
据介绍,兔展智能目前已经与郑中设计在室内设计装修领域展开合作。郑中设计的高价值数据能够助力优化室内设计专用的AI生图模型,提高概念设计图生产效率。同时还打通了下游建材企业的物料库,实现了AI自动匹配装修建材。“中国有强劲的制造能力和庞大的产业链。以家居建材为例,我们希望用AI让每一个普通人都能自己无限次地设计自己的房子,并打通家居建材产业链,为用户提供数字化推荐,真正跳过中间商。”董少灵说。
事实上,不仅是室内设计,建筑设计、园林设计、电商营销设计、印刷设计等多个领域,都有视觉大模型的用武之地,也是兔展智能正在深耕的领域。董少灵告诉记者,Sora本质是一个视频大模型,“兔灵”大模型也是一个集理解与生成为一体的视觉大模型,“在整个模型底座上,我认为很早前我们走的路线就与Sora展现出来的路线一样,底层框架是相似的。只是我们选择将先进的架构用于把图片、3D等领域做好,因为它们能应用于生产制造,赋能产业发展。”
董少灵说,Sora向大家展示出来的能力是文生视频,但它不只有这个能力,Open-Sora计划背后的模型也不只有这个能力。他进一步解释,Sora的真正价值是证明视觉模型大模型这条路“行得通”,能够让人工智能在视觉方向上做很多事,但它所展示出来的文生视频只是视频大模型的其中一项功能,还有其他领域的应用。“而我们更看重的是结合产业应用,赋能产业升级。”董少灵说。