马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几

图灵汇官网

核心提示

据图灵汇报道,马斯克和一些人工智能领域的专家指出,目前AI模型训练所需的数据资源正在逐渐耗尽。在一次直播讨论中,马斯克提到:“我们几乎用尽了所有能用于AI训练的人类知识数据,这种情况大概从一年前开始显现。”

这一观点得到了前OpenAI首席科学家伊利亚·苏茨克弗的认同。他在去年的NeurIPS会议中提到,AI行业正面临“数据瓶颈”的问题,未来可能需要寻找新的训练数据来源,这或许会推动AI开发模式的变革。

合成数据崭露头角

马斯克认为,合成数据或许是解决这一难题的有效途径。他解释道:“唯一可行的办法是借助合成数据,让AI自己创造训练素材。通过不断自我评估和学习,AI的能力可以持续提升。”

像微软、Meta、OpenAI以及Anthropic这样的大型科技公司,已经开始采用合成数据来训练关键的AI模型。根据Gartner的预测,到2024年,超过半数用于AI和数据分析项目的数据将由合成方式生成。

经济优势与挑战并存

合成数据的一大好处是能有效节省开支。例如,一家名为Writer的人工智能初创公司表示,他们研发的Palmyra X 004模型几乎全靠合成数据完成,总成本仅为70万美元。而类似规模的OpenAI模型开发费用则高达460万美元。

不过,合成数据也存在一定的隐患。研究表明,如果合成数据本身带有偏差或局限性,可能会使模型表现变差,甚至得出更加失衡的结果,进而影响其实际应用价值。因此,如何保障合成数据的质量和广泛性,已成为亟需解决的重要课题。

本文来源: 互联网 文章作者: 李祉乐
    下一篇

导读:中房报记者 李叶丨北京报道“人工智能大模型正在引领新一轮工业革命,成为全球产业变革的核心驱动力,成为各行各业发展的新质生产力,也为房地产行业带来了很多变革机会。”1月17日,以“向上生长”为主题