9月16日,昆仑万维宣布其自主研发的通用基础大模型“天工”在权威推理评测Benchmark GSM8K中表现出色,以80%的准确率拔得头筹,显著超越了GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。这一成绩彰显了“天工”模型在全球推理能力评估中的领先地位。
权威评测表现:在Benchmark GSM8K评测中,昆仑万维自研的“天工”大模型以其80%的高准确率脱颖而出,大幅领先于GPT-3.5和LLaMA2-70B,展现出了其在推理任务上的卓越性能。
多维度测试表现:除了在Benchmark GSM8K中的优异表现,“天工”还分别在MMLU、C-EVAL、HumanEval等关键数据集上展现出色的性能。在MMLU数据集中,其65%的准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集上,以65%的准确率超过GPT3.5的54.4%。在HumanEval数据集的测试中,天工大模型以37.2%的准确率显著超越了PaLM-540B(26.2%)、LLaMA-65B(23.7%)以及LLaMa2 -70B(30.5%),展现了其在复杂任务处理上的强大能力。
昆仑万维的“天工”大模型不仅在推理性能上取得了显著成就,还在多个关键评估指标上表现出色,这标志着其在全球人工智能领域推理能力的领先地位。随着技术的持续迭代和优化,“天工”有望在未来带来更多令人瞩目的创新成果。