Skywork-R1V 2.0版本再开源!最强高考数理解题利器、实现多模态推理再进化

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork-R1V,开启多模态思考新时代。继Skywork-R1V首次成功实现“强文本推理能力向视觉模态的迁移”之后,昆仑万维再度发力,今天正式开源多模态推理模型的全新升级版本——Skywork-R1V 2.0(以下简称R1V 2.0) 。

01

R1V 2.0 性能全面提升并开源,视觉与文本推理能力双管齐下

Skywork-R1V 2.0是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现了多模态大模型的“深度+广度”的统一。升级后的R1V 2.0模型颇具亮点:

——中文场景领跑:理科学科题目(数学/物理/化学)推理效果拔群,打造免费AI解题助手;

——开源巅峰:38B权重+技术报告全面开源,推动多模态生态建设;

——技术创新标杆:多模态奖励模型(SkyworkVL Reward)与混合偏好优化机制(MPO),全面提升模型泛化能力;选择性样本缓冲区机制(SSB),突破强化学习“优势消失”瓶颈。

在多个权威基准测试中,R1V2.0相较于R1V 1.0在文本与视觉推理任务中均实现显著跃升。无论是专业领域任务,如数学推理、编程竞赛、科学分析,还是通用任务,如创意写作与开放式问答,R1V 2.0都呈现出极具竞争力的表现:

——在MMMU上取得73.6分,刷新开源SOTA纪录;

——在Olympiad Bench上达到62.6分,显著领先其他开源模型;

——在MathVision、MMMU-PRO与MathVista等多项视觉推理榜单中均表现优异,多项能力已可媲美闭源商业模型,堪称当前开源多模态推理模型中的佼佼者。

在与开源多模态模型的对比中,R1V 2.0的视觉推理能力(在众多开源模型里)脱颖而出。

如下图所示,R1V2.0 也展现出媲美商业闭源多模态模型的实力。

而在文本推理方面,在AIME2024和LiveCodeBench等挑战中,R1V 2.0 分别取得了78.9分和63.6分,展现出了人类专家级的数学与代码理解能力。在与专用文本推理模型对比中,R1V2.0同样展现出卓越的文本推理能力。

02

技术亮点一:推出多模态奖励模型Skywork-VL Reward,全面开源

自R1V 1.0开源以来,昆仑万维团队收获了来自全球开发者与研究者的广泛反馈。在模型推理能力显著提升的同时,团队也发现,过度集中于推理任务的训练,会限制模型在其他常规任务场景下的表现,影响整体的泛化能力与通用表现。

为实现多模态大模型在“深度推理”与“通用能力”之间的最佳平衡,R1V 2.0引入了全新的“多模态奖励模型 Skywork-VL Reward”及“规则驱动的混合强化训练机制”。在显著增强推理能力的同时,进一步稳固了模型在多任务、多模态场景中的稳定表现与泛化能力。

Skywork-VL Reward,开启多模态强化奖励模型新篇章:

当前,行业中多模态奖励模型的缺乏,已成为强化学习在VLM(Vision-Language Models)领域进一步发展的关键瓶颈。

现有奖励模型难以准确评价跨模态推理所需的复杂理解与生成过程。为此,昆仑万维推出了SkyworkVL Reward模型,既可为通用视觉语言模型(VLM)提供高质量奖励信号,又能精准评估多模态推理模型长序列输出的整体质量,同时也可以作为并行线上推理最优答案选择的利器。

这种能力使得Skywork-VL Reward模型在多模态强化学习任务中具有广泛的适用性,促进了多模态模型的协同发展:

——跨模态引领者:率先提出多模态推理与通用奖励模型,推动多模态强化学习;

——榜单标杆:在视觉奖励模型评测中名列第一,7B权重与技术报告全面开源;

——信号全覆盖:支持从短文本到长序列推理的多元化奖励判别。

Skywork-VL Reward在多个权威评测榜单中表现优异:在视觉奖励模型评测榜单VL-RewardBench中取得了73.1的SOTA成绩,同时在纯文本奖励模型评测榜单RewardBench中也斩获了高达90.1的优异分数,全面展示了其在多模态和文本任务中的强大泛化能力。

为回馈社区和行业,团队也将Skywork-VL Reward完整开源。

03

技术亮点二:引入多重优化策略提升核心效果

长期以来,大模型训练面临“深度推理提升”与“通用能力保持”的难以兼得难题。为解决这一“推理-通用”的能力跷跷板问题,以及解决通用问题没有直接可验证的答案的挑战,R1V 2.0引入了MPO(Mixed Preference Optimization,混合偏好优化)机制,并在偏好训练中充分发挥Skywork-VL Reward奖励模型的指导作用。

和R1V 1.0思路类似,我们使用提前训练好的MLP适配器,直接将视觉编码器internVIT-6B与原始的强推理语言模型QwQ-32B连接,形成R1V 2.0-38B的初始权重。这样一来,R1V 2.0在启动时即具备一定的多模态推理能力。

在通用任务训练阶段,R1V 2.0借助Skywork-VL Reward提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下具备良好的通用适应能力。实验证明,Skywork-VL Reward有效实现了推理能力与通用能力的协同提升,成功实现“鱼与熊掌兼得”。

在训练深度推理能力时,R1V 2.0在训练中采用了基于规则的群体相对策略优化GRPO(Group Relative Policy Optimization)方法。该策略通过同组候选响应之间的相对奖励比较,引导模型学会更精准的选择和推理路径。

R1V 2.0所采用的多模态强化训练方案,标志着大模型训练范式的又一次重要革新,也再次验证了强化学习在人工智能领域无法撼动的地位。通过引入通用性更强的奖励模型Skywork-VL Reward,以及高效稳定的样本利用机制SSB,我们不仅进一步提升了R1V系列模型在复杂任务中的推理能力,同时也将开源模型跨模态推理泛化能力提升到了全新高度。

R1V 2.0的诞生,不仅推动了开源多模态大模型在能力边界上的突破,更为多模态智能体的搭建提供了新的基座模型。

04

面向AGI的持续开源

最近一年以来,昆仑万维已陆续开源多款核心模型:

开源系列:

1. Skywork-R1V 系列:38B视觉思维链推理模型,开启多模态思考时代;

2. Skywork-OR1(Open Reasoner 1)系列:中文逻辑推理大模型,7B和32B最强数学代码推理模型;

3. SkyReels系列:面向AI短剧创作的视频生成模型;

4. Skywork-Reward:性能卓越的全新奖励模型。

这些项目在Hugging Face上广受欢迎,引发了开发者社区的广泛关注与深入讨论。

我们坚信,开源驱动创新,AGI 终将到来。

正如DeepSeek等优秀团队所展现的那样,开源模型正逐步弥合与闭源系统的技术差距,乃至实现超越。R1V 2.0不仅是当前最好的开源多模态推理模型,也是我们迈向AGI路上的又一重要里程碑。昆仑万维将继续秉持“开源、开放、共创”的理念,持续推出领先的大模型与数据集,赋能开发者、推动行业协同创新,加速通用人工智能(AGI)的实现进程。

龚斯轩

编辑:gloria
AI 文章概述
*本回答由 AI 生成,仅供参考,不构成任何专业建议。
    热门新闻
      24小时热榜
      日榜 | 周榜