DeepSeek成功的底层逻辑及产业影响

5个月前 来源:新华网 观看:77

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?vjO即热新闻——关注每天科技社会生活新变化gihot.com

工程创新vjO即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。vjO即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。vjO即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变vjO即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……vjO即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。vjO即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。vjO即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。vjO即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。vjO即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?vjO即热新闻——关注每天科技社会生活新变化gihot.com

工程创新vjO即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。vjO即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。vjO即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变vjO即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑vjO即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……vjO即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。vjO即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。vjO即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。vjO即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。vjO即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
美国华盛顿州立大学科学家领衔开展的一项研究显示,连续一周每天饮用约355毫升接骨木汁,能促使肠道微生物组发生积极变化,提升身体燃烧脂肪的能力,从而...
01-24
  元宵节刚过,国内机票价格迎来“断崖式”下跌。记者从多家出行平台获悉,节后多条热门航线裸票...
02-18
  本报记者张建友  游客在抚远东极广场迎接新年第一缕朝阳佳木斯市文化广电和旅游局供图 ...
02-18
新闻通讯员 金晨 姚子怡随着农历春节日益临近,在新一轮家电以旧换新等利好政策加持下,武汉经开区家电销售又迎来一波小高峰。1月20日,记者在区内多个家电卖场看到,各式各样的家...
01-21
  随着城市化加速和人民群众对居住品质要求的提升,房子的定义正从满足基本居住功能转向追求高...
01-21
  广州日报讯(全媒体记者邓莉)今年将是自主高端新能源车崛起的一年。招银国际在1月发布的最新报...
01-23
2 月 1 日消息,华为余承东发文,称其驾驶一台鸿蒙智行智界R7增程版,全程使用智能驾驶,成功从安徽到深圳自驾1345公里返工,算上去休息区的时间,一共用时 15 个小时。今天在...
02-02
最近风靡的《痞子无间道》凭借演员们的颜值、演技以及引人入胜的剧情吸引了大量观众。这部剧集不仅情节扣人心弦,人物塑造生动,还包含许多精彩的场景和细节,引...
02-19
近期,台湾娱乐圈风波不断,先是大S的突然离世震惊各界,随后又传出陈妍希与陈晓婚变的消息,令人唏嘘不已。然而,事件并未平息,19日晚再传新动态,汪小菲即将抵台,预计将与S妈展开正面交...
02-23
21世纪经济报道记者武瑛港 实习生张烁 李依浓 北京报道近日多家医疗器械上市公司发布业绩预告,行业的“寒冬”似乎仍在持续。乐普医疗和春...
02-09
21世纪经济报道记者 唐唯珂 实习生 黄源轩 广州报道最近一段时间,众多从事体外诊断(IVD)的公司纷纷公布了2024年业绩预告。根据21世纪经济报...
02-11
1月12至14日,清华大学国家卓越工程师学院12名硕博士研究生来到沈阳开展研学实践活动。团沈阳市委有关负...
01-21
作者:贾德忠(北京外国语大学党委副书记、马克思主义学院教授)在全球治理体系和国际秩序加速变革的大背景下...
01-22
  摘要  苹果市场走势主要由“预期”和“预期差”这两个关键词主导。收购初期,受弱现实影响,...
01-21
  原标题:2024年12月信托发行数量、规模创全年新高?非标信托主导季节性冲规模 标品信托回归债券...
01-22
狮子男是十二星座中最有自信和魅力的一位,他们对于爱情充满了激情和渴望。当一个狮子男...
01-22
射手座的男生天性热情开朗,喜欢自由自在地生活。他们追求刺激和冒险,对于感情也是如此。...
01-22
2万左右可以考虑哪些chanel的包包款式?2万左右可以考虑哪些chanel的包包款式?1、Chanel小羊皮腰包金色链带设计华丽又生动,配上金色Chanel CC logo小羊皮制作的腰包,大气又易衬,...
02-07
2023年时尚潮流颜色服饰指南在时尚的世界里,每年都会有新的潮流颜色引领风骚,成为众多服饰品牌和设计师争相追逐的对象。今年的潮流颜色不仅展现了设计师们的创意,更是反映了当...
02-17
2月16日消息,时值服饰行业春季上新节点,快手电商男装运动行业联合快手电商中小商家行业、快手商业化男装运动行业发起“早春新风尚-男装运动鞋服焕新季”活动。2月12日-2月28...
02-17
2月19日消息,苏宁易购将于2月21日-3月2日双线启动“万人抢空调”活动,即日起开启预售。消费者参与活动可享政府以旧换新补贴至高20%,单一消费者购买空调补贴台数达到3台。此外,...
02-20
在干燥的冬季,大家是否会被猝不及防的静电困扰?头发“炸毛”、穿脱衣物时被刺痛感袭击、摸门把手时被狠狠“电击”……这些静电现象...
02-07
2月19日消息,美团宣布,预计2025年第二季度开始逐步为全职及稳定兼职骑手缴纳社保。去年以来,美团就骑手缴纳养老保险等社保方案做了认真研究,选择了不同区域不同城市进行深入调...
02-20
2025年1月22日,达歌生物(以下简称“达歌”),一家专注于针对不可成药靶点开发分子胶新药的生物技术公司,今日宣布公司于2024年底成功完成了超2000万美元的A+轮融资。本轮融资...
01-23
1月2日,产业级AI应用服务商——明心数智宣布获得近两亿元B轮融资。本轮由柏睿资本领投,国方创新、狮城资本和老股东鼎晖VGC跟投。明心数智成立于202...
02-07
今日(1月24日)Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2:黑之章》公布并发售,Steam国区售价298元,支持简体中文字幕。现在官网发布了角色截图,一起来欣赏下吧! ...
01-25
《GTA6》发行商Take Two在宣布该作仍计划在2025年秋季发售不会延期后,公司股价大涨,市值终于超过了长期竞争对手EA。目前Take Two市值为373.2亿美元,高于EA(346亿...
02-11
第九届亚冬会2月7日开幕,随着开幕临近,各国运动员和媒体陆续抵达。第九届亚冬会主媒体中心现场情况如何,跟随总台记者何莉一起探访。这里是哈尔滨2025年第九届亚冬会的主媒体中...
02-05
在2月9日的比赛中,中国代表团获得7金7银9铜。其中,中国短道速滑队以2金2银4铜收官。△点击图片,查看哈尔滨第九届亚冬会奖牌榜。2月10日,将决出7枚金牌。比赛有哪些精彩看点?一起...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮