DeepSeek:迈向全社会分享的普遍智能

2个月前 来源:文汇报 观看:24

 jmj即热新闻——关注每天科技社会生活新变化gihot.com

  ?jmj即热新闻——关注每天科技社会生活新变化gihot.com

去年春节,美国OpenAI开发的视频生成AI工具Sora横空出世,成为世界关注的焦点。今年春节前夕,一家低调的中国AI企业DeepSeek推出的开源大模型在全球引发了不啻Sora的震撼——它在模型算法和工程优化方面所进行的系统级创新,为在受限资源下探索通用人工智能开辟了新的道路,并为打破以“大模型、大数据和大算力”为核心的生成式AI“扩展定律”天花板带来了无限遐想。

过去几周,DeepSeek超越ChatGPT,登顶苹果美国地区应用商店免费App下载排行榜。1月28日,美国“外交学者”网站(The Diplomat)发表题为《中国的DeepSeek是美国人工智能的“斯普特尼克时刻”》的文章指出,DeepSeek此次的开源之举延续了OpenAI的初心使命——为了人类利益推动人工智能发展。

DeepSeek的出圈,再次印证了一个科技创新硬道理:赢得比赛的关键是精益求精、富有创造力的创新,而非单纯的金融实力和一味的出口管制。

“大力出奇迹”并非AI唯一出路

2019年,人工智能领域强化学习鼻祖、DeepMind研究科学家、加拿大阿尔伯塔大学计算机学教授理查德·萨顿发表了一篇题为《苦涩的教训》的文章,认为“纵观过去70年的AI发展历史,想办法利用更大规模的算力总是最高效的手段”。

在“数据是燃料、模型是引擎、算力是加速器”这一深度学习理念支持下,以Transformer为基本模型的生成式AI(如ChatGPT等)不再从互联网中搜索和罗列已有的匹配信息,而是从海量数据中洞悉单词与单词之间的共现概率,以组合意义下“昨日重现”方式合成众所周知的语言内容。

Transformer是2017年谷歌公司提出的一种新型深度神经网络,其核心在于通过自注意力机制让每个单词记住在不同语境下的“左邻右舍”,然后以似曾相识之感来概率合成新的内容。“Transformer”这一名字或许受到了电影《变形金刚》的英文名“Transformers”的启发,因此可以将合成内容的生成式AI看成一个“魔镜”,它能够根据输入内容如变魔术般输出与之对应的内容。

由于每个单词要记住越来越多不同语境下的“左邻右舍”,因此模型参数不断增多而导致模型规模不断增大,随之出现了大模型的“扩展定律”(Scaling Law),即随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,并且这些关系遵循可预测的模式。

面对越来越大的模型,训练模型所需的AI算力不断飙升,“大力出奇迹”这一算力霸权开始左右人工智能的发展。英伟达创始人兼首席执行官黄仁勋据此提出过“黄氏定律”:在计算架构改进的推动下,人工智能芯片的性能每年可提升1倍,速度远超集成电路领域的摩尔定律。

人工智能“扩展定律”虽然也需要算法和系统创新,但是这一“无他、但手熟尔”的模式不应是AI发展的唯一出路,因为“化繁为简、大巧不工”才是推动“机器学习”迈向“学习机器”的初衷。

“万物之始,大道至简,衍化至繁”,以简单直接思路解决复杂问题才是科学研究之道。1953年,诺贝尔物理学奖得主恩利克·费米提 到,冯·诺依曼曾对他说 过,用4个参数就能画出一头大象,用5个参数就可以让象鼻子动起来。英国数学家雅各布·布鲁诺斯基也曾提到,冯·诺依曼认为围棋不是博弈,虽然因为计算复杂而难以找到答案,但在理论上,下围棋一定有个最佳落子方案。

这些故事告诉我们,用简单方法解决复杂问题是科学研究基本思路之一。正如爱因斯坦所言,“所有科学中最重大的目标就是从最少数量的假设和公理出发,用逻辑演绎推理的方法解释最大量的经验事实”。由此可见,DeepSeek的研发初心切合了大模型发展的内在逻辑,为遏制其规模“疯长”势头提供了一剂良药。

从“学而不思则罔”到“思而不学则殆”

能用众力,则无敌于天下矣;能用众智,则无畏于圣人矣。DeepSeek的精彩表现在于其对算法、模型和系统等进行的系统级协同创新,是众智和众力相互叠加的成果。

应该说,DeepSeek模型仍是基于此前的Transformer架构,没有实现改变游戏规则的颠覆性基础理论创新。但是,它在模型算法和工程优化方面进行了系统级创新,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上完成训练,打破了大语言模型以大算力为核心的预期天花板,为在受限资源下探索通用人工智能开辟了新的道路。其算法和工程创新主要包括混合专家模型、低秩注意力机制、强化学习推理、小模型蒸馏,以及诸如FP8混合精度和GPU部署优化等工程创新。

其中,混合专家稀疏模型与传统大语言模型“众人拾柴、咸与维新”的路径不同,它另辟蹊径利用了“术业有专攻”的理念,每次让若干个合适专家协作发挥各自能力,完成特定任务。

实际上,人脑也是一个稀疏模型。虽然人脑由800多亿个神经元和100万亿个突触连接而成,但它在完成识人辨物和举手投足等任务时,每次只有一小部分神经元被激活。实现“弱水三千,只取一瓢饮”,且让被选择的若干专家能够以“十个指头弹钢琴”的形式,负载均衡地合作完成任务,而不是“三个和尚无水喝”——这正是DeepSeek所做出的难得的算法创新。

低秩注意力机制的引入使DeepSeek在保持模型性能的同时显著降低了计算和存储成本。人类在理解外界信息时,往往看到的是内嵌在信息中的本质结构。例如,我们理解一篇文章,更关切若干单词组合所刻画的主题概念,而非单词从头到尾的罗列。传统大模型中的注意力机制由于需要记录每个单词在不同上下文中的左邻右舍,因此变得庞大无比。DeepSeek对这一巨大的注意力机制矩阵进行了压缩,从而极大提升了模型运行效率。

在强化学习推理方面,传统大模型训练时采用了“授之以鱼,不如授之以渔”的方法,即人类给出大量思维链数据,通过监督式微调来让大语言模型仿照思维链完成相应任务。但DeepSeek的做法则如同让一个天才儿童在没有任何范例的指导下,完全通过“尝试与试错”来不断探索未知空间,并利用已有经验不断取得进步,最终完成从“摸着石头过河”到“先知后行”的蝶变。

而且,DeepSeek进一步提出了让模型从若干答案中进行比较的选择方法,以实现自我提升。

这种直接训练方法不仅耗时更短、计算资源需求大幅减少,更让模型学会了思考,而且是以见证“啊哈时刻(Aha Moment)”(指让用户眼前一亮时刻)的顿悟方式思考。

但值得注意的是,该方法难免导致推理过程难以被溯源和理解等局限。为此,DeepSeek收集了一部分思维链数据,引入冷启动和有监督微调等方法,对模型进行再次训练,从而让模型在保持强大推理能力的同时,还学会了用人类易懂的方式表达思维过程。

广受关注的“模型蒸馏”就是让小模型模仿大模型回答问题的结果,来提升自身能力。比如,在对一篇文章分类时,大模型认为该文章以85%、10%和5%的概率分别属于正面、负面和中性等不同情感类别。小模型就从大模型输出的结果中认真思考,不断调整参数,以期望继承大模型能力,从而输出类似结果。

由于神经网络有强大的非线性映射能力,蒸馏学习不仅没有导致“东施效颦”的笑话,反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸馏之术迁移到了小模型。这不禁让人感叹,对于大模型而言,“学而不思则罔”;对于小模型而言,“思而不学则殆”。

智能时代,教育何为?

人工智能是一种类似于内燃机或电力的“通用目的技术”,天然具备“至小有内,至大无外”推动学科交叉的潜力。无论是从人工智能角度解决科学问题(AI for Science,如利用人工智能预测蛋白质序列的三维空间结构),还是从科学的角度优化人工智能(Science for AI,如从统计物理规律角度优化神经网络模型),未来的重大突破都将源自于这种交叉领域的工作。

如果说过往的技术发明是从机械化增强角度提升人类与环境的互动能力,那么人工智能的出现将对人类的这一根本能力和角色发起挑战——生成式人工智能的出现使得智能机器成为知识生产的辅助者,这将深刻改变个体学习者的自主思考、判断、学习能力,乃至伦理道德观。

如何看待一项新技术的发展,这是进行技术预测的一项必需认知准备。遗憾的是,人类总是习惯于线性思维(这符合人类自然的认知模式:节省能量与快速计算),但这种认知配置很容易出现认知偏差,其中最常见的就是对于技术近期与远期影响的判断出现不对称性——短期内倾向于高估技术的影响,长期内低估技术的影响,即美国科学家罗伊·阿玛拉提出的“阿玛拉法则”。

那么,随着智能时代的来临,如何通过教育体系的变革来应对这一时代之变?在浙江大学2024年6月发布的《大学生人工智能素养红皮书》中,我们提出,大学生人工智能素养是由体系化知识、构建式能力、创造性价值和人本型伦理构成的有机整体,其中知识为基、能力为重、价值为先、伦理为本。

目前,浙江大学和复旦大学等高校已将人工智能作为全校大学生通识必修课程。而且,浙江大学、复旦大学、上海交大、南京大学、中科大和同济大学已在四年前共同推出“课程共建、学分互认、证书共签”的AI+X微专业,今年还将推出升级版,以进一步加强人工智能通识教育和交叉学科教育。

2024年春节,我为文汇报撰写《Sora“超级涌现力”将把AI引向何方》的文章,今年春节又为DeepSeek撰稿。虽然希望人工智能年年有精彩,但我更期盼全社会分享的普遍智能到来。

DeepSeek模型特点速读

混合专家稀疏模型

DeepSeek的基座模型V3采用了混合专家机制,每一个Transformer层包含256个专家和1个共享专家,V3基座模型总共有6710亿参数,但每次token仅激活8个专家、370亿参数。这一创新算法与稠密模型相比,预训练速度更快;与具有相同参数数量的模型相比,具有更快的推理速度。

低秩注意力机制

低秩注意力机制又被称为多头潜在注意力机制。DeepSeek引入“低秩”这一概念,对巨大的注意力机制矩阵进行压缩,减少参与运算的参数数量,从而在保持模型性能的同时显著降低计算和存储成本,把显存占用降到了其他大模型的5%—13%,极大提升了模型运行效率。

强化学习推理

DeepSeek这次在训练推理模型中直接采用了一条前所未有的“纯”强化学习路径,仅根据模型输出答案优劣以及输出答案格式完整等简单信息,对模型行为进行奖惩。

该方法不仅对计算资源的需求大幅减少,还可让模型以“顿悟”的方式学会思考,并用人类易懂的方式表达思维过程。

模型蒸馏

为了让简洁紧凑的小模型具备DeepSeek-R1那样的推理能力,DeepSeek开发团队采用蒸馏方法来增强小模型的推理能力,即让小模型模仿大模型回答问题的结果,来提升自身能力。

工程创新

DeepSeek使用FP8混合精度加速训练并减少GPU内存使用,使用DualPipe算法(即将前向和后向计算与通信阶段重叠,以最大限度减少计算资源闲置)提升训练效率,并进行了极致的内存优化。他们开发了一套完善的数据处理流程,着重于最小化数据冗余,同时保留数据的多样性。jmj即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-8-1199-0.htmlDeepSeek:迈向全社会分享的普遍智能

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:山东化工技师学院举办第47届世赛化学实验室技术项目技能竞赛技术交流及工作总结会议

下一篇:港中大成立致真交叉数学科学院,丘成桐任创院院长

为你推荐
  大众网记者 司心鹏 报道  12月24日上午,廉洁文化进学校暨“青春·清菏韵泽”廉洁文化馆开馆仪式在菏泽职业学院举行。市委常委、市纪委书记、市监委主任赵永强、市...
01-21
青少年在学习中华武术。通讯员 丁根厚 摄青少年在学习调试编程机器人。通讯员 丁根厚 摄青少年在体验科学秀项目。通讯员 丁根厚 摄青少年在绘制生肖蛇儿童画。通讯员 丁根...
01-21
  在我国人口老龄化加速的大背景下,养老金融成为社会关注的焦点。中共中央、国务院近日出台的...
01-21
  摘要  【纯碱:仍面临供需过剩格局】2024年,纯碱随着大投产逐步兑现,叠加光伏和浮法玻璃进入...
01-24
射手座的男生通常都有一种独立自主、不拘小节的个性,他们喜欢追求自由和刺激。因此,如果...
01-22
天秤男是十二星座中最具有浪漫气质的一位,他们善于表达情感,对待爱情充满了热情和渴望。...
01-22
潮流时尚从婷婷姐开始:揭秘最新服饰趋势在这个瞬息万变的时尚界,寻找一位真正能够引领潮流的时尚达人并不容易。而我最近接触到的婷婷姐,正是这样一位充满魅力的时尚先锋。她的...
02-07
泳装模特T台走秀事故:背后的故事与影响在时尚界,总有一些事件能让整个行业为之侧目,泳装模特的T台走秀事故便是如此。最近,我在一个时尚秀上亲眼目睹了这样一次令人震惊的事件,这...
02-12
小红书宣布开始招募海外MCN机构,批量引入具备视频创作能力的海外红人。MCN机构将有三个月试跑期,需承诺每个月不少于50人的红人引入量。今年1月中旬,受TikTok在美关停影响,自称...
02-11
狠人张一鸣火力全开,已处置10万个盗播直播间。1、抖音电商整治“盗播”账号,10万个直播间被罚现在的直播间,骗术越来越花样百出,没点判断力真的很容易被骗。高额返利骗局、直播...
02-13
2月13日消息,据Tech星球消息,饿了么将推出一项名为“筷马送水”的服务,用于桶装水、包装饮用水的配送,可能还会以加盟的方式邀请本地水站入驻,享受饿了么平台的流量扶持。该服务...
02-14
2月22日消息,美团自营大药房近日再次升级异地订单快递物流服务。美团数据显示,在刚刚过去的流感季,美团自营大药房已实现90%以上订单“当日或次日达”,美团也是在医药电商领域首...
02-23
近日,毅富能源科技(广东)有限公司(以下简称“毅富能源”)成功完成天使+轮融资。本轮融资由国内新能源行业产业投资平台仁发投资和国内知名早期风险投资...
02-07
在全球化的大背景下,中国品牌凭借自身实力与创新能力,在国际舞台上愈发耀眼。近日,来自拉丁美洲的一则消息引起了行业广泛关注:远大智能工业集团博林特电梯,成功中标哥伦比亚麦德...
02-09
据法国媒体报道Les Echos报道,育碧和沙特公司Savvy Games Group达成合作关系,这可能让发售两年的《刺客信条:幻景》迎来DLC。 报道称育碧之前对《刺客信条:幻景》...
01-27
《漫威蜘蛛侠2》Steam版现已推出第二个热修复补丁。 此热修复补丁——在《漫威蜘蛛侠2》于Valve平台收获“褒贬不一”评价之际发布——包含“多项崩溃修复与改...
02-04
极目新闻记者 丁伟街头套圈可以套到豪车玛莎拉蒂?近日,在河南商丘柘城县,一个套圈摊位吸引不少游客前来打卡和碰运气。2月6日,摊位老板告诉极目新闻记者,这是一辆二手的玛莎拉蒂,...
02-06
记者今天(7日)从国家气候中心获悉,最新海温监测结果显示,赤道中东太平洋海温已进入拉尼娜状态,这也导致了我国东部地区这个冬季降水明显偏少。预测显示,拉尼娜状态将维持到春季中...
02-07
美国科学家开展的一项研究发现,从栀子花中提取的京尼平化合物可促进神经再生。实验室研究显示,当受损且发育迟缓的神经元接触京尼平时,竟然重新焕发生...
01-23
《自然》杂志1月15日介绍了一款人工智能(AI)模型,其宛如科幻小说里的“巴别鱼”,能直接“语音到语音”翻译多达101种语言的语音和文本。由Meta推出的这...
01-27
  1月16日,东北地区规模最大的抽水蓄能电站——国网新源辽宁清原抽水蓄能电站6号机组正式投入商业运行...
01-21
  2月13日,金杯汽车股份有限公司发布晚间公告称,公司董事会收到许晓敏先生的书面辞职报告,因其达到法定...
02-15
在一些学校,毕业后选择工作的本科生越来越少了。过去几周,包括清华大学、北京大学、复旦大学等多所知名高校公布了 2023-2024 学年的本科教学质量报告,披露了包括毕业率、就...
01-21
  海报新闻记者 孙佃潇 北京报道  1月21日,海报新闻记者从交通运输部获悉,春运期间,河北聚焦新能源车出行增多等特点,全面开展充电能力倍增行动,加快充电基础设施建设,切实...
01-22
北京时间 1 月 24 日,据英国《金融时报》报道,欧盟已承诺帮助陷入困境的欧洲汽车行业,可能会通过实施覆盖整个欧盟的补贴计划来提振电动汽车需求。欧盟委员会执行副主...
01-24
2 月 6 日消息,汽车媒体 carscoops 今天(2 月 6 日)发布博文,报道称捷豹 I-Pace 电动 SUV 曾被寄予厚望,但近年来因电池问题频繁召回,导致大量车辆被报废。捷豹公司已在美...
02-06
  《难哄》桑延和温以凡的爱情之路并不顺遂,桑延给足了温以凡偏爱和安全感,才让对方接受自己。《难哄》桑延温以凡什么时候在一起?桑延也曾经被温以凡拒绝过,但他并没有因此...
02-14
近期备受瞩目的电视剧《难哄》中,郑可佳和温以凡的关系成为热门话题。这部剧在开拍前就吸引了大量粉丝关注,随着剧情推进,更多观众加入讨论,大家都对这对角色之...
02-20
21世纪经济报道记者武瑛港 北京报道近日,羟基磷灰石的使用问题在医美行业内快速升温。记者获悉,2025年1月21日,深圳市市场监督管理局、深圳市...
01-23
21世纪经济报道记者 韩利明 上海报道医药领域关乎民生福祉。日前,最高人民检察院官网披露数据显示,2024年1月至11月,全国检察机关起诉医疗领...
02-15
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮