您的位置：经济财融网 > 热点 > 442个作者，100页论文一半都是参考文献，谷歌耗时2年发布开源大模型新

442个作者，100页论文一半都是参考文献，谷歌耗时2年发布开源大模型新

来源：IT之家

浏览量：8889

时间：2022-12-18 11:35

阅读量：8182

来自132个机构的研究人员花了两年时间提出了一个新的基准大工作台，一个大语言模型在此基础上，对OpenAI的GPT模型和Google—Internal Dense Transformer架构进行了评测，模型规模为6个数量级

最终的结果表明，虽然模型的性能伴随着规模的扩大而提高，但与人类的性能仍相差甚远。

对于这部作品，杰夫·迪恩转发了一个赞:很棒的作品。

大语言模型的新基准

莱康在这篇论文里说了什么。

伴随着规模的扩大，模型的性能和质量都得到了一定程度的提升，可能会有一些革命性的影响，但这些性能之前并没有很好的描述。

现有的一些基准存在一定的局限性，评测范围较窄，性能评分很快达到饱和。

比如强力胶，在引入这一基准后的18个月内，模型取得了超越人类水平的性能。

基于这样的背景，BIG—bench诞生了。

目前由204项任务组成，涵盖语言学，儿童发展，数学，常识推理，生物，物理，社会偏见，软件开发等问题。

此外，还有一个由人类专家组成的陪审团，他们也执行所有任务来提供基线水平。

为了方便更多机构使用，研究人员还给出BIG—bench Lite，一个小但有代表性的任务子集，便于更快的评估。

以及实现benchmark API的开源代码，它支持对公开可用模型的任务评估和新任务的轻量级创建。

最终评估结果表明，规模跨越了六个数量级，且伴随着模型规模的扩大和训练样本数量的增加，大平台上的整体性能有所提高。

但与人类基线水平相比，性能还是比较差的。

在某些特定任务上，模型的性能会伴随着规模的增大而稳步提升但有时候，会有特定规模的突然突破表现

此外，它还可以评估模型的社会偏差。

此外，他们意外地发现，模特还可以获得一些隐藏技能比如象棋里怎么按规则走

剩下的，有50页参考文献。

好了，有兴趣的朋友可以戳下面链接到康康论文。

纸质链接:

GitHub链接:

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

分享到微信

联想/摩托罗拉新机通过3C认证，支持68W快充

，一款型号为联想L71091的联想5G新机通过了国家3C质量认证，显示支持MC—688充电头，最大68.2W 联想很少推出自主品牌手机今年年初推出联想拯救者Y90游戏手机，...
2022-12-18 11:23
贵人鸟或“易主”

在成功完成脱帽后，贵人鸟最近几天因其股份被反复拍卖而再次引起投资者关注。贵人鸟表示，截至前述公告披露日，公司控股股东共持有司法拍卖的公司股份1.849亿股，占公司总股本的...
2022-12-18 10:24
九号公司高禄峰：智慧赋能从移动“人”到移动“物”

我第一次接触和体验平衡车是在海南三亚的沙滩上，当时就觉得很神奇回忆起10年前第一次接触平衡车产品的经历，9号公司董事长高禄峰感慨万千它只由两个轮子和一个摇杆组成，通过调整...
2022-12-18 09:51
联想CES2023虚拟展会官宣，将展示搭载英特尔芯片的新品

，联想CES2023虚拟展将于2023年1月6日零点开始，将展示采用英特尔芯片的新品。本站了解到，按照惯例，联想将在CES期间陆续发布新一代游戏本，轻薄本和ThinkPa...
2022-12-18 08:49
买易方达蓝筹精选，赚到钱的人是什么样的？

日前，张坤管理的易方达蓝筹精选有限申购，每人每天2000元这不是张坤预测的顶部，但这是张坤觉得如果他有太多钱，他可能不会有更好的购买机会的点 2020年3月底，易方达蓝筹精...
2022-12-18 08:08

头条

46.1万公里国家公路网规划将燃爆3

成品油市场新风口！华为已入场

图文

拥抱标准化，卤巧儿弄潮卤味市场

政策红利提振汽车消费长安汽车销量实