AI模型“大即好”的观点已经走不通了

图灵汇官网

导读

《经济学人》撰稿人 | 明明如月 译者 | 夏萌 出品 | CSDN(ID:CSDNnews)

为了促进人工智能(AI)的进步,未来的AI系统必须在有限资源的基础上实现更强的功能。

大型语言模型:从GPT到更高效的AI

在探讨大型语言模型(LLMs),尤其是OpenAI的GPT系列(如GPT-3,拥有1750亿参数)如何驱动美国流行聊天机器人核心力量的同时,我们注意到,大型模型“越大越好”的传统观念正受到挑战。GPT-3作为大语言模型的代表,通过在几周内利用数千个高性能GPU进行训练,处理数万亿字的文本,耗资预计超过460万美元。然而,这一趋势揭示了AI研究的核心共识:随着模型规模的快速增长,训练成本也随之攀升。

规模与效率的权衡

现代AI研究正转向更高效地利用资源,而非仅仅追求更大规模。一种策略是通过减少参数数量,同时增加训练数据量来平衡模型的复杂性和性能。例如,Google DeepMind部门在1.4万亿字的语料库上训练了一个拥有700亿参数的Chinchilla模型,尽管参数数量远低于GPT-3,但在某些任务上的表现超越了后者。

降低计算开销

研究人员还在探索减少模型中每个数字的精确度,即通过四舍五入减少浮点数的精度,以显著降低硬件需求。这种方法不仅减少了内存消耗,还能在高端GPU上运行原本需要多台设备才能执行的大型模型,同时保持较低的精度损失。

微调与定制化

对于特定任务,用户倾向于对通用LLM进行微调,以优化法律文件生成或假新闻检测等功能。尽管这相对较为简单,但仍然需要大量的时间和资源。以Meta(Facebook的母公司)开源的650亿参数的LLaMA模型为例,微调需要多GPU支持,且所需时间从几个小时到几天不等。

提升效率的创新技术

华盛顿大学的研究人员提出了一种高效方法,仅需一天时间就能在单个GPU上从LLaMA模型创建新模型Guanaco,且性能损失几乎可以忽略。他们采用的技术包括四舍五入和低秩自适应(LoRA)等,旨在简化模型的训练过程,使其在计算资源有限的设备上也能运行,如智能手机。

利用大型模型的潜力

另一组谷歌的研究人员提出了一种方法,从大型通用模型中提取特定知识,转化为更小且专业化的模型。这种“教师-学生”模式中,大型模型作为知识来源,小型模型作为接收方,通过模仿教师模型的推理过程进行训练。这种方法成功地创建了一个只有77亿参数的小型模型,其在特定推理任务上的表现甚至优于拥有5400亿参数的大型教师模型。

优化代码与硬件

通过改进代码编写方式和硬件设计,研究人员也找到了提高AI模型效率的途径。例如,修改注意力算法以考虑实际运行环境,以及引入新的编程框架和语言,如Meta的PyTorch新版本和Modular公司的Mojo语言,都能显著提高模型训练速度和性能。

结论

随着AI领域的持续发展,优化资源利用已成为关键议题。从减少参数、提高计算效率到改进硬件设计,多种策略共同推动了AI系统的进步。这一趋势预示着未来的AI将更加高效、经济,并能更好地适应多样化的需求,为实现更宏大的AI愿景铺平道路。

本文来源: 图灵汇 文章作者: 南都兄弟
    下一篇

本文来源:时代财经 作者:谢斯临 图片来源:Pixabay 高调宣布要打造中国OpenAI4个月后,美团联合创始人王慧文因病暂别竞争激烈的大模型战