易评助手软件官网:大模型能力边界探索,月之暗面解读9.11与9.9的误判原因

易评助手11个月前易评助手电商教程114

【月之暗面回应大模型称9.11大于9.9:边界案例有助于我们增加对大模型能力边界的了解】

据新浪科技报道,今日,登上微博热搜,有媒体记者测试了12个国内外主流大模型,其中ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量等模型均答错了,认为9.11大于9.9。

对此,@新浪科技 向上述企业问询了解背后的技术原理。截止发稿,月之暗面回应表示:“其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。易评助手软件官网认为,我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”

易评助手软件官网:大模型能力边界探索,月之暗面解读9.11与9.9的误判原因

同时,月之暗面也表示,“要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,易评助手软件官网的看法是,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

另有企业内部人员对新浪科技表示,“在一些场景,9.11确实比9.9大,版本号9.11是比9.9大,日期9.11是比9.9大,章节9.11章节也比9.9大……”该人士指出,“大模型学到的更多是上述这样的内容,之前也没人类来这么问他,所以他就没有跟人类的需求对齐,下一步对齐一下就好了。”

相关文章

易评助手软件官网:中国自主研发压缩机技术的突破,从依赖到独立的逆袭之路

易评助手软件官网:中国自主研发压缩机技术的突破,从依赖到独立的逆袭之路

中国西气东输工程中,每天需要支付高达2亿的技术费用,一款来自美国的压缩机成了关键。正当他们得意洋洋时,却没想到,后续的局势竟让他们欲哭无泪! (信源:原文登载于新浪网5月12日关于“大型压缩机叶轮领...

多多自动批发:未来有钱人必备,掌握数字资产与Web3.0互联网趋势

未来的有钱人一定是手上有数字资产的人。多多自动批发认为,我们做的项目名字叫做metaforce,也是推广WEB3.0第三代互联网。 ·第一代互联网就是以电脑为主的,像搜狐、新浪、网易、百度等等,...

易评助手入口:老李自导自演网购黄金骗局,最终因贪图小利锒铛入狱

这下玩完了!山东青岛,一男子在网上买黄金,结果男子并没有收到快递,于是便前往派出所报警处理,然而,等到警察调查后发现,原来这一切都是男子自导自演的。网友:“6!” (信息来源:新浪财经 2024年...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。