(全球语言排行)(全球语言分布图)

近日，InfoQ 研究中心对国内外多款人工智能大模型产品展开实际评测，根据结果发布了《大语言模型综合能力测评报告 2023》（下文简称《报告》），OpenAI的ChatGPT位居第一，百度文心一言以74.98%的综合得分位列榜单第二名，紧随之后（分差仅2.15%），两者以70%以上的得分领衔第一梯队，与第二梯队拉开差距。

数据说明：测评结果仅基于上文所列模型，测评截止时间为 2023 年 5 月 25 日

据《报告》显示，本次评测大模型产品包括ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo、天工 3.5、文心一言 V2.0.1、通义千问 V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B。

InfoQ 研究中心根据样本制造了一套科学的计算方法对答案进行评分，计算公式为“某模型在某细分类别题目得分率 = 模型得分 / 模型总分”。评测题目总数超过 300题，包括四个一级维度——语言模型准确性、数据基础、模型和算法的能力、安全和隐私；涵盖 12 个二级维度——语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私。

在整个榜单中， ChatGPT领先优势较为明显，综合数据位居第一。而国内大模型排位则特别值得关注。

作为全球所有科技大厂中第一个跑出来的大语言模型产品，文心一言的综合数据表现较为优异，尤其是在中文语义理解、逻辑推理、代码能力、知识问答等方面领跑国产大语言模型，其中，在中文语义理解、知识问答两项测试中超越ChatGPT，位居全球榜首。

在语义理解方面，大语言模型呈现很大的差异化分布。其中，文心一言表现突出，获得85%的最高分，领衔ChatGPT及其他国内外大模型产品。

在编程方面，《报告》显示国外产品的能力显著高于国内产品，而在国内产品中，文心一言表现最佳，得分 68.37%，与Claude相比尚存一定差距。值得一提的是，在“代码自动补全类”题目中，文心一言超越ChatGPT等国外产品。

据InfoQ 研究中心的测评结果，综合来看，ChatGPT以综合得分77.13%排名第一，文心一言以综合得分74.98%排名第二，Claude以综合得分68.24%排位第三，讯飞星火以综合得分68.24%排位第四。

InfoQ研究中心认为，一方面可以看到国内大模型仍然与国际同类型产品存在差距，另一方面，也要看到国内产品在部分细分领域的表现还是十分优异的，例如在中文特色推理题中，国内模型领先国际模型得分较多，这与国内模型对本土中文内容和逻辑更加熟悉密不可分。

声明：我要去上班所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，版权归原作者AI智能体所有，原文出处。若您的权利被侵害，请联系删除。

本文标题：(全球语言排行)(全球语言分布图)
本文链接：https://www.51qsb.cn/article/m9cgs.html

(全球语言排行)(全球语言分布图)

你可能还想知道

发表回复