昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

4个月前 来源:财经网 观看:77

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

1Zt8即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代Zt8即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?Zt8即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?Zt8即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度Zt8即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:Zt8即热新闻——关注每天科技社会生活新变化gihot.com

2Zt8即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:Zt8即热新闻——关注每天科技社会生活新变化gihot.com

3Zt8即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破Zt8即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:Zt8即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移Zt8即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)Zt8即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)Zt8即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)Zt8即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏Zt8即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)Zt8即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)Zt8即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:Zt8即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐Zt8即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移Zt8即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐Zt8即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGIZt8即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。Zt8即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。Zt8即热新闻——关注每天科技社会生活新变化gihot.com


Zt8即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
今日(1月24日)Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2:黑之章》公布并发售,Steam国区售价298元,支持简体中文字幕。现在官网发布了角色截图,一起来欣赏下吧! ...
01-25
《堡垒之夜》服务器即将迎来重大升级!据报道,Epic Games正在三个新地区测试服务器,此举将显著改善玩家体验。此次升级将影响数百万休闲与竞技玩家。此外,预计该开...
02-01
距离除夕只剩几天,“回家”成为大街小巷最热门的话题。窗前的红灯笼、热闹的年货市场、街头巷尾的新春歌曲……处处洋溢着喜庆的氛围。“我恭喜你发财,我恭喜你精彩,最好的请过...
02-02
今天(2月3日)上午第九届亚洲冬季运动会火炬传递仪式在黑龙江哈尔滨启动火炬传递时间为1天传递总路线长约11公里火炬传递起点定在哈尔滨市道外区中华巴洛克街区这里是哈尔滨城...
02-03
“三国是一个好IP。”在当下中国的游戏市场上,以《西游记》《三国演义》等四大名著为内容IP而衍生开发的游戏,仍然在头部产品中占据...
01-21
据物理学家组织网15日报道,美国劳伦斯·利弗莫尔国家实验室(LLNL)科学家将国家点火装置(NIF)所发射的高功率激光与超轻金属泡沫巧妙结合,创造出迄...
01-21
辽宁省气象台1月25日16时发布寒潮黄色预警  预计,26~29日全省气温自西向东陆续下降,大部地区累计降温幅...
01-27
  企业家该有什么样的社会价值?不久前,在受邀为我省各市数百名干部作专题讲座时,禾丰食品股份有限公司董...
02-15
新闻通讯员 木子春运承载着亿万游子对家乡的眷恋与期盼,春节的脚步近了,归心似箭的人们纷纷踏上返乡之路。据交通运输等部门预计,今年春运全社会跨区域人员流动量将达到90亿人...
01-22
  中新经纬1月17日电 (薛宇飞)“这几年,捷克线上消费表现强劲,外卖和在线订单的比例显著上升。未来,要加强外卖业务,优化外卖包装和配送流程。同时,面对中高端餐饮市场的机会,我...
01-21
1月15日,在MG新年首场“有意思”发布会上,MG打破常规,首开传统车企新车重新发布“先河”。上汽MG品牌事业部总经理周钘首次以新身份正式亮相,并将MG ES5重新发布,为观众深度解读...
01-21
1 月 21 日消息,赛力斯今日公告,预计 2024 年度实现营业收入 1442 亿元到 1467 亿元,同比上升 302.32% 到 309.30%。从公告获悉,赛力斯预计 2024 年度实现归属于上市公...
01-22
  1、《树下有片红房子》祁琪有感情线,祁栖暗恋宋丛,最后跟宋丛走到了一起。  2、祁栖是陈欢尔的同桌好友,景栖迟前期也喜欢过她,四个主角之间有着错综复杂的暗恋关系。 ...
02-18
《难哄》钟思乔是配角吗?钟思乔和温以凡什么关系在《难哄》中,钟思乔是配角,她是女主角温以凡的闺蜜,在故事中起到了丰富情节、推动主角感情发展等作用。《难哄...
02-19
  大家都知道“吃头孢不能喝酒”  但许多人并不知道这背后的原理  也不知道除了头孢以外...
01-24
2023年12月11日,灞桥区洪庆街道“双减办”组织教育、安监等多部门,对洪庆地铁口“爱心托管”进行突击检查。  检查中发现,“爱心托管”在市场监管部门有备案,但机构内印有学...
01-21
  大众网记者 隋宜笑 报道  12月26日,山东政法学院党委委员、副校长胡晓清,山东政法学院传媒学院党总支书记徐永青,山东政法学院传媒学院副院长常洪卫等一行5人到访山东...
01-21
  “年终奖刚发,本来打算去银行网点买定期存款,但利率实在太低。客户经理推荐了一款针对新客户...
01-22
  摘要  【黄金价格再攀新高足金首饰价格冲破830元/克】COMEX黄金价格报2762美元/盎司,创近...
01-24
天秤座的男生注重外貌和内在的平衡,他们对于美丽有着独特的见解。在他们眼中,漂亮的女生...
01-22
狮子座的男生通常都有着强烈的自尊心和领导欲望,他们喜欢被人关注和赞美。因此,如果你想...
01-22
宿迁杉杉服饰最新招聘信息与职业发展机会在当前竞争激烈的就业市场中,寻找合适的工作机会总是让人感到兴奋与期待。今天,我想和大家分享的是宿迁杉杉服饰的招聘信息,以及在这家...
02-07
引领潮流:2023年热门时尚服饰与包包选择潮流的魅力时尚,总是充满变幻与惊喜。每一年、每一个季节,都见证着不同的潮流风向。在2023年的时尚舞台上,服饰和包包更是不可忽视的主角...
02-12
抖音电商势不可挡。据36氪消息,2024年,抖音电商的商品交易总额(GMV)约为3.5万亿元,同比增幅达30%,2025年目标为4.2万亿元。截至发稿,此数据尚未获得抖音电商相关负责人回应。另据了...
02-15
2月20日消息,随着2025年空调消费旺季提前启动,苏宁易购与美的开启“火三月”大促。双方将依托国家以旧换新补贴政策加码、核心新品矩阵首发及百亿级战略合作资源,打造全年力度...
02-21
金价整体大涨,金饰消费下行,一众品牌金饰企业2024年营收下滑,但也有商家探索出了新玩法。 比如深圳水贝,这里是全国最大的黄金批发市...
03-01
3月6日消息,京东健康发布2024年全年财报。2024年,京东健康总收入582亿元,同比增长8.6%,非国际财务报告准则指标下(Non-IFRS)净利润达47.9亿元,收入和净利润均超过市场预期。截至202...
03-09
作 者:罗拓 提到消费投资,加华资本的创始人宋向前是一个绕不开的人物。即使你不关注投资行业本身,或许你也听过他的言论。 过去数年,不少知名机构都在逃离消费投资。在消费投资...
01-21
2024年,年轻人的生活方式和消费行为发生了显著变化,需求的多元化和精细化,直接影响着品牌的营销策略和创新方向。从注重“质价比”的理性消费到对情绪价值的追求,从圈层文化的细...
01-23
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮