- 国产大模型的“阶跃速度”:阶跃星辰发布万亿MoE大模型
- 2024年07月06日来源:太原新闻网
提要:阶跃星辰与上海电影共同推出的这款AI互动游戏,将最先进的AI大模型技术与《大闹天宫》的情境深度融合,用当代全新的视角领略中国传统文化的魅力,回顾经典动画作品的艺术成就,同时也为广大创作者打开了无限的想象空间。
在2024年的世界人工智能大会(WAIC)上,大模型成为了备受关注的焦点。其中,国产大模型公司阶跃星辰在短短100多天的时间里,以惊人的速度发布了三款大模型,包括Step-2万亿MoE语言大模型正式版、Step-1.5V多模态大模型和Step-1X图像生成大模型。
阶跃星辰的Step系列通用大模型因其出色的性能和创新的应用,荣获了WAIC 2024 SAIL之星奖项。同时,阶跃星辰还与上影合作,在WAIC现场发布了基于《大闹天宫》的AI互动体验——“测测你是哪路神仙”。
通过这些举措,阶跃星辰成为了国内极少数同时布局大语言模型和多模态大模型,并且已经正式发布模型产品的AI公司之一。多模态理解和生成的统一布局被包括阶跃星辰在内的许多AI从业者视为通往AGI(通用人工智能)的必经之路。
从首次亮相至今,阶跃星辰以“阶跃速度”迅速崛起,成为国产大模型的第一梯队。
万亿模型俱乐部
阶跃星辰本次发布的万亿参数大模型是其重要成果之一。在全球范围内,这样的大模型也屈指可数。今年3月首次亮相的Step-1是一个千亿参数的稠密(Dense)模型,而本次发布的Step-2则是一个万亿参数的MoE模型。
“稠密”和“MoE”是描述大模型参数的两种技术路径。稠密模型的参数量与实际运行参数是1:1的关系,在推理时会运行所有参数;而MoE模型的实际运行参数只有总参数的1/4或1/8,以提高推理效率。
关于两者的更细微区别,可以直接向阶跃星辰推出的对话助手产品“跃问”提问。
在Scaling Law的指导下,大模型的参数量越来越大已成为确定性趋势。然而,从千亿到万亿的跨越,究竟应该采用稠密模型还是MoE模型?阶跃星辰CEO姜大昕认为,如果要将模型参数扩大到万亿级别,MoE几乎是一个必选项。这就像在科研或工程中,许多决策就是在各个维度之间寻找最佳平衡点,MoE也是在性能、参数量、训练成本和推理成本等维度权衡下的最佳选择。
法国的Mistral、马斯克的xAI都发布了MoE架构的千亿级别大模型。今年3月,黄仁勋在GTC大会上透露了OpenAI最大的模型参数为1.8万亿,这侧面证实了GPT-4的参数量,也意味着GPT-4是一个MoE架构的大模型。
多模态是通往AGI的必经之路
除了语言大模型,阶跃星辰还发布了两款多模态大模型,同样表现出色。
Step-1.5V是一款千亿参数多模态大模型。相比三个月前发布的Step-1V,Step-1.5V不仅在图像感知和理解能力上全面提升,还具备了出色的视频理解能力。目前,除了OpenAI的GPT-4o和谷歌的Gemini,很少有其他大模型具备视频理解能力。
与仅使用图像数据进行训练不同,Step-1.5V采用了图文混排的训练方法,使其能够理解复杂的图表、流程图,并准确感知物理空间中复杂的几何位置。它还能处理高分辨率和极限长宽比的图像。
在视频理解能力方面,Step-1.5V不仅能准确识别视频中的物体、人物和环境,还能理解视频的整体氛围和人物情绪。
Step-1.5V大幅提升的推理能力得益于将万亿参数的语言大模型作为其“老师”。Step-1.5V可以根据图像内容进行各种高级推理任务,如解答数学题、编写代码、创作诗歌等。
除了升级版的Step-1.5V,阶跃星辰还首次发布了图像生成大模型Step-1X,补充了理解之外的生成能力。
Step-1X图像生成大模型采用全链路自研的DiT(Diffusion Models with transformer)模型架构,这也是OpenAI的视频大模型Sora所采用的技术路线。
Step-1X支持600M、2B、8B三种不同的参数量,以满足不同场景的需求。600M模型适用于对速度敏感的轻量级场景;2B模型是日常使用的主力模型,在效果和速度之间达到了完美的平衡;8B模型则是追求更高效果的更极致的模型。
Step-1X具有更好的文本prompt和生成图片的语义对齐能力、指令遵循能力,同时针对中国元素进行了深度优化,更符合国人的审美风格。在WAIC现场,阶跃团队还展示了针对中国动画风格《大闹天宫》的视频生成能力。
在互动中,用户需要上传一张个人照片并与大模型生成的剧情进行选择和交谈。算法会识别照片的特征,将特征结合《大闹天宫》的画风和角色进行风格迁移,生成新的肖像。同时,根据用户的选择和回答,进一步分析用户的“MBTI”人格,并在天庭为用户“安排”一个差事。整个交互过程有趣且极具个人特色。
《大闹天宫》AI互动体验的背后调用了多个阶跃星辰自研的Step系列大模型,融合了图像理解、风格迁移、图像生成、剧情创作等多种能力。例如,在初始角色生成时,系统首先会判断用户上传的照片是否符合“捏脸”要求,然后用非常符合《大闹天宫》语言风格的方式灵活地给予反馈。这体现了模型的图片理解能力和大语言模型的能力。
阶跃星辰与上海电影共同推出的这款AI互动游戏,将最先进的AI大模型技术与《大闹天宫》的情境深度融合,用当代全新的视角领略中国传统文化的魅力,回顾经典动画作品的艺术成就,同时也为广大创作者打开了无限的想象空间。
基于Step系列大模型,阶跃星辰通过自研产品和生态合作产品逐渐形成了丰富的产业应用生态圈。除了内容领域,阶跃星辰还在金融、网络文学、知识服务、游戏、数字人、影视等领域与合作伙伴达成了深度合作,共同探索面向C端用户的创新应用。
通过自研产品和生态合作,阶跃星辰正在走出一条独具特色的国产AGI之路。