来源:IT之家
浏览量:8889
时间:2022-12-18 11:35
阅读量:8182来自132个机构的研究人员花了两年时间提出了一个新的基准大工作台,一个大语言模型在此基础上,对OpenAI的GPT模型和Google—Internal Dense Transformer架构进行了评测,模型规模为6个数量级
最终的结果表明,虽然模型的性能伴随着规模的扩大而提高,但与人类的性能仍相差甚远。
对于这部作品,杰夫·迪恩转发了一个赞:很棒的作品。
大语言模型的新基准
莱康在这篇论文里说了什么。
伴随着规模的扩大,模型的性能和质量都得到了一定程度的提升,可能会有一些革命性的影响,但这些性能之前并没有很好的描述。
现有的一些基准存在一定的局限性,评测范围较窄,性能评分很快达到饱和。
比如强力胶,在引入这一基准后的18个月内,模型取得了超越人类水平的性能。
基于这样的背景,BIG—bench诞生了。
目前由204项任务组成,涵盖语言学,儿童发展,数学,常识推理,生物,物理,社会偏见,软件开发等问题。
此外,还有一个由人类专家组成的陪审团,他们也执行所有任务来提供基线水平。
为了方便更多机构使用,研究人员还给出BIG—bench Lite,一个小但有代表性的任务子集,便于更快的评估。
以及实现benchmark API的开源代码,它支持对公开可用模型的任务评估和新任务的轻量级创建。
最终评估结果表明,规模跨越了六个数量级,且伴随着模型规模的扩大和训练样本数量的增加,大平台上的整体性能有所提高。
但与人类基线水平相比,性能还是比较差的。
在某些特定任务上,模型的性能会伴随着规模的增大而稳步提升但有时候,会有特定规模的突然突破表现
此外,它还可以评估模型的社会偏差。
此外,他们意外地发现,模特还可以获得一些隐藏技能比如象棋里怎么按规则走
剩下的,有50页参考文献。
好了,有兴趣的朋友可以戳下面链接到康康论文。
纸质链接:
GitHub链接:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
,一款型号为联想L71091的联想5G新机通过了国家3C质量认证,显示支持MC—688充电头,最大68.2W 联想很少推出自主品牌手机今年年初推出联想拯救者Y90游戏手机,...
2022-12-18 11:23在成功完成脱帽后,贵人鸟最近几天因其股份被反复拍卖而再次引起投资者关注。 贵人鸟表示,截至前述公告披露日,公司控股股东共持有司法拍卖的公司股份1.849亿股,占公司总股本的...
2022-12-18 10:24我第一次接触和体验平衡车是在海南三亚的沙滩上,当时就觉得很神奇回忆起10年前第一次接触平衡车产品的经历,9号公司董事长高禄峰感慨万千 它只由两个轮子和一个摇杆组成,通过调整...
2022-12-18 09:51,联想CES2023虚拟展将于2023年1月6日零点开始,将展示采用英特尔芯片的新品。 本站了解到,按照惯例,联想将在CES期间陆续发布新一代游戏本,轻薄本和ThinkPa...
2022-12-18 08:49日前,张坤管理的易方达蓝筹精选有限申购,每人每天2000元这不是张坤预测的顶部,但这是张坤觉得如果他有太多钱,他可能不会有更好的购买机会的点 2020年3月底,易方达蓝筹精...
2022-12-18 08:08