100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火

图灵汇官网

一位知名人工智能专家最近推出了一项新的开源项目,立刻引起广泛关注。这个名为 nanochat 的项目,可以帮助用户从头开始搭建一个类似 ChatGPT 的模型,整个过程成本不超过 100 美元。

该项目包含大约 8000 行代码,发布后不到 12 小时,就获得了超过 4500 个星标。它提供完整的训练和推理流程,适合学习构建大型语言模型的全过程。

项目支持在云 GPU 上运行,只需执行一个脚本,几小时后就能在聊天界面中与自己的模型互动。仓库中包含了多种功能,例如使用 Rust 编写的分词器、预训练 Transformer 模型、微调以及评估多个任务的表现。

还可以选择进行强化学习训练,并且支持高效的推理引擎,包括缓存、工具调用等功能。此外,还能自动生成评分报告,展示训练过程中的表现。

专家表示,仅需花费约 100 美元,就能训练出一个能进行简单对话的小型模型。如果增加预算到 1000 美元,模型能力会显著提升,可以处理基础数学和代码问题。

这个项目被设计为一个结构清晰、易于修改的代码库,旨在帮助学习者掌握构建大模型的核心技术。虽然目前还处于早期阶段,但已经具备了基本框架,方便社区进一步开发和优化。

有人提出是否可以用这个模型来打造个人化的应用。但专家指出,这更像是一个初学者模型,不具备强大的智能。如果在特定数据上进行训练,可能会出现模仿效果,但整体表现并不理想。

要实现真正的个性化,需要准备大量数据,生成合成内容,并对现有大模型进行微调。同时还要保持模型的通用能力,这仍然是一项复杂的科研任务。

更多详细信息可以查看项目页面。

本文来源: 互联网 文章作者: ITShare
    下一篇

导读:该说不说,都 2025 年了,我问 AI 一个问题,体验却常常两极分化。简单的事,它秒回,但答得跟没答一样。复杂的事,让它深度思考,它又要琢磨 30 秒以上。而每一次回答,AI 都在不断「燃烧」