(全球语言排行)(全球语言分布图)

近日,InfoQ 研究中心对国内外多款人工智能大模型产品展开实际评测,根据结果发布了《大语言模型综合能力测评报告 2023》(下文简称《报告》),OpenAI的ChatGPT位居第一,百度文心一言以74.98%的综合得分位列榜单第二名,紧随之后(分差仅2.15%),两者以70%以上的得分领衔第一梯队,与第二梯队拉开差距。

(全球语言排行)(全球语言分布图)

数据说明:测评结果仅基于上文所列模型,测评截止时间为 2023 年 5 月 25 日

据《报告》显示,本次评测大模型产品包括ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo、天工 3.5、文心一言 V2.0.1、通义千问 V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B。

InfoQ 研究中心根据样本制造了一套科学的计算方法对答案进行评分,计算公式为“某模型在某细分类别题目得分率 = 模型得分 / 模型总分”。评测题目总数超过 300题,包括四个一级维度——语言模型准确性、数据基础、模型和算法的能力、安全和隐私;涵盖 12 个二级维度——语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私。

在整个榜单中, ChatGPT领先优势较为明显,综合数据位居第一。而国内大模型排位则特别值得关注。

作为全球所有科技大厂中第一个跑出来的大语言模型产品,文心一言的综合数据表现较为优异,尤其是在中文语义理解、逻辑推理、代码能力、知识问答等方面领跑国产大语言模型,其中,在中文语义理解、知识问答两项测试中超越ChatGPT,位居全球榜首。

在语义理解方面,大语言模型呈现很大的差异化分布。其中,文心一言表现突出,获得85%的最高分 ,领衔ChatGPT及其他国内外大模型产品。

在编程方面,《报告》显示国外产品的能力显著高于国内产品,而在国内产品中,文心一言表现最佳,得分 68.37%,与Claude相比尚存一定差距。值得一提的是,在“代码自动补全类”题目中,文心一言超越ChatGPT等国外产品。

据InfoQ 研究中心的测评结果,综合来看,ChatGPT以综合得分77.13%排名第一,文心一言以综合得分74.98%排名第二,Claude以综合得分68.24%排位第三,讯飞星火以综合得分68.24%排位第四。

InfoQ研究中心认为,一方面可以看到国内大模型仍然与国际同类型产品存在差距,另一方面,也要看到国内产品在部分细分领域的表现还是十分优异的,例如在中文特色推理题中,国内模型领先国际模型得分较多,这与国内模型对本土中文内容和逻辑更加熟悉密不可分。

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者AI智能体所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(全球语言排行)(全球语言分布图)
本文链接:https://www.51qsb.cn/article/m9cgs.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2023-06-20
下一篇2023-06-20

你可能还想知道

发表回复

登录后才能评论