大模型既要“吃得饱”更要“吃得好”

5个月前 来源:科技日报 观看:56

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。eYE即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。eYE即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。eYE即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。eYE即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。eYE即热新闻——关注每天科技社会生活新变化gihot.com

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。eYE即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。eYE即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。eYE即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。eYE即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。eYE即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-856-0.html大模型既要“吃得饱”更要“吃得好”

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:张成伟代表:把低空安全作为初心使命

下一篇:全国人大代表、万事利集团董事长屠红燕:连续三年呼吁AI应用,加快丝绸纺织业变革

为你推荐
科学家在治疗致命的神经退行性疾病——朊病毒病方面取得了重要进展。美国麻省理工学院和哈佛大学博德研究所研究人员开发出一种新的基因...
01-21
1月13日,科技日报记者来到河北省唐山市220千伏君瑞变电站设备间,看到一只智能巡检“机器狗”正在一台变电设备前执行任务,不时伸出背上的伸缩臂探视设...
01-22
    连日来金价屡创新高,“小而美”的金饰产品搭上“黄金概念”一路水涨船高。除了迷你金元...
02-11
  新华社北京2月13日电题:破百亿元!“哪吒”动画新突围  新华社记者李欢  突破100亿元!2月13...
02-14
过去半年,为防治部分地方政府招商“内卷化”,遏制拼优惠、拼“政策洼地”式的政府招商模式,一系列文件、法规密集推出。 “去年8月拼...
01-21
  今天(20日)各地正式实施手机、平板、智能手表(手环)等数码产品购新补贴政策,“国补”范围从家电、汽车向日常消费电子领域扩展。个人消费者购买单件销售价格不超过6000元...
01-21
1 月 24 日消息,据国家市场监督管理总局消息,近日,国际标准化组织批准由我国牵头的 7 项新能源汽车领域国际标准项目立项,涉及电动汽车整车、动力电池、燃料电池及换电 ...
01-24
1 月 27 日消息,特斯拉现已公布了旗下Model 3 / Y车型 2025 年 2月购车权益,其中焕新款 Model 3(2025 款)和旧款(2024 款)Model Y 车型可享限时5年0息分期购车方案,而焕新...
01-28
  1、《难哄》中温以凡之所以叫温霜降,是因为她的性格和气质看起来比较高冷。  2、而且温以凡也是霜降的那一天出生的,不过只有桑延喜欢叫她温霜降这个名字。  3、温以...
02-15
《余烬之上》最大反派是谁?最大的内鬼是谁?在《余烬之上》中,很难绝对地界定谁是最大反派,但戚美华和纳威都有较大嫌疑被认为是最大反派。戚美华策划灭门惨案:从...
02-21
21世纪经济报道记者武瑛港 北京报道近期血液净化上市公司健帆生物发布业绩预告,2024年营收为25.95亿元~27.87亿元,与2023年的19.22亿元相比...
02-11
21世纪经济报道记者林昀肖 北京报道 近日,全国中成药联合采购办公室发布第三批全国中成药采购联盟集中采购中选结果。此次中成药集采由湖...
02-13
  大众网记者 张明明 报道  7月27日至31日,由教育部高等教育司指导、中国高等教育学会主办的第四届全国高校教师教学创新大赛在成都举行,校(院)临床与基础医学院(基础医学...
01-21
  大众网记者 杨涛报道  日前,第十七届山东省职业院校技能大赛高职组“健身指导”赛项结果出炉,青岛港湾职业技术学院代表队凭借出色的团队表现和创新的活动设计,获第6...
01-21
  在我国人口老龄化加速的大背景下,养老金融成为社会关注的焦点。中共中央、国务院近日出台的...
01-21
  银行业理财登记托管中心近日发布《中国银行业理财市场年度报告(2024年)》(简称《报告》)。《报...
01-22
射手座的男生通常是开朗、乐观、自由奔放的,他们对待感情也是如此。然而,当他们真正爱上...
01-22
天蝎座的男生通常被认为是神秘、独立、有魅力的人。他们深思熟虑,善于隐藏自己的情感,并...
01-22
雨薇服饰有限公司:创造时尚与品质的完美结合在如今的时尚行业中,有许多品牌脱颖而出,但为什么我会特别关注雨薇服饰有限公司呢?这不仅因为它的设计独特,更因为它在服饰的每一个细...
02-12
中国服饰品牌历史? 中国男装之都?中国服饰品牌历史?中国服饰文化源远流长、独具特色,古时也一直以“衣冠上国”和“礼仪之邦”著称于世。服饰是文化的一部分,在中华民族上下五千...
02-17
2月12日消息,据复旦消费大数据实验室数据,网上年货节期间(1月7日至2月5日)广州市网上零售总额达956.4亿元,相比去年同期增长4.58%。各大电商平台推出丰富多彩的活动优惠,实现销售...
02-13
1.阿里开放数百AI招聘岗位阿里的野心彻底暴露了,其正以前所未有的力度抢占人才高地,全面加速在AI To C领域的布局步伐。近期,阿里AI To C业务开启大规模人员招聘,开放招聘岗位达...
02-20
3月4日消息,据美团旅行数据,2025年2月1日以来,“世界文化遗产-苏州园林”拙政园的门票搜索量同比上涨120%,近3成搜索者为00后年轻游客。图源:苏州园林官微为给全球游客提供更便捷...
03-05
又一外资大手笔并购!近日,德国化妆品巨头汉高宣布完成对苏州博克生物科技股份有限公司(以下简称“苏州博克”)的收购,继去年完成对宝洁...
03-10
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
值此新春佳节之际,农业农村部传来捷报,我国“菜篮子”工程稳扎稳打,保障能力再上新台阶。据最新数据显示,2024年度全国蔬菜种植面积与产量双丰收,当前田间蔬菜绿意盎然,总面积突破...
02-09
RTX 5090已于1月30日在全球开卖,但因为货源稀少,导致全球各地掀起抢购潮。 据媒体报道,日本东京秋叶原一家名为“电脑工房秋叶原零件馆”的店家限量发售10张RTX...
02-03
英特尔今天公布了2024年第四季度财报,收入同比下跌,转盈为亏,也延续了上个季度的亏损趋势。同时公布的2024年全年财报未能达到市场的预期,收入和利润双双下跌,同样...
02-03
极目新闻记者 李迎近日,四川“献血大王”杨秀伟因突发脑梗入院治疗。2月6日,杨秀伟的妻子谢素华称,目前丈夫病情平稳但尚未脱离危险期,仍在住院观察阶段。据谢素华介绍,1月30日,她...
02-06
在2月9日的比赛中,中国代表团获得7金7银9铜。其中,中国短道速滑队以2金2银4铜收官。△点击图片,查看哈尔滨第九届亚冬会奖牌榜。2月10日,将决出7枚金牌。比赛有哪些精彩看点?一起...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮