昆仑万维：天工通用大模型推理能力超过GPT-3.5和LLaMA2_图灵汇

投稿
APP
微信扫一扫获取更多

昆仑万维：天工通用大模型推理能力超过GPT-3.5和LLaMA2

前海柔云

2023-09-19 19:03:36

图灵汇官网

导读：

9月16日，昆仑万维宣布其自主研发的通用基础大模型“天工”在权威推理评测Benchmark GSM8K中表现出色，以80%的准确率拔得头筹，显著超越了GPT-3.5（57.1%）和LLaMA2-70B（56.8%）。这一成绩彰显了“天工”模型在全球推理能力评估中的领先地位。

内容详述：

权威评测表现：在Benchmark GSM8K评测中，昆仑万维自研的“天工”大模型以其80%的高准确率脱颖而出，大幅领先于GPT-3.5和LLaMA2-70B，展现出了其在推理任务上的卓越性能。
多维度测试表现：除了在Benchmark GSM8K中的优异表现，“天工”还分别在MMLU、C-EVAL、HumanEval等关键数据集上展现出色的性能。在MMLU数据集中，其65%的准确率超越了LLaMA-65B的63.4%；在C-EVAL数据集上，以65%的准确率超过GPT3.5的54.4%。在HumanEval数据集的测试中，天工大模型以37.2%的准确率显著超越了PaLM-540B（26.2%）、LLaMA-65B（23.7%）以及LLaMa2 -70B（30.5%），展现了其在复杂任务处理上的强大能力。

结论：

昆仑万维的“天工”大模型不仅在推理性能上取得了显著成就，还在多个关键评估指标上表现出色，这标志着其在全球人工智能领域推理能力的领先地位。随着技术的持续迭代和优化，“天工”有望在未来带来更多令人瞩目的创新成果。

天工万维昆仑推理模型超过通用能力 LLaMA2 GPT

本文来源：图灵汇文章作者：前海柔云

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌 AI 搜索功能被指冲击新闻出版商流量：未经许可提取内容 + 低链接率
图灵汇

: 谷歌发布安卓 16 QPR1 Beta 2 更新：Pixel 8/9 系列手机支持桌面模式、为平板引入窗口化功能
图灵汇

: 谷歌安卓 16 窗口化新规：功能仅限平板，折叠手机体验需外接屏幕
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

下一篇

能疯狂吞噬时间，它就能主导时代钻石白菜价，橄榄油成液体黄金

智能飞机

2023-09-21

3045

股融易资讯今日话题 --- 吞噬时间机器，现在是短视频，下一个是啥？当短视频经济开始占据时代主舞台，无远弗届地影响我们的生活时，无论我们如何定义它，它都是我们讨论当前产业经济时，所无法绕过的风墙。短视频的参与方，按照传统经济行业， ...