标题:小数据时代:人工智能的新曙光
来源:科学美国人
过去几十年,人工智能(AI)领域的一大关键突破在于对大数据集的依赖。这一趋势在图像分类领域尤为显著,自2010年以来,通过数百万张标注成上千类别的大型图片数据集,如ImageNet,该领域取得了巨大进步。GPT-3这类语言模型的成功,得益于其在互联网上接受的数千亿词汇的训练,这也加深了公众对“AI”与“大数据”的紧密关联。
然而,AI并非局限于庞大数据库。过去十年,“小数据”研究领域快速发展,尤其是迁移学习(Transfer Learning)这一概念的兴起。迁移学习,又称为微调,适用于数据集规模有限但相关数据丰富的场景。其核心思想是在大型数据集上训练模型,然后用与特定问题相关的少量数据集进行微调。
实例说明,印度班加罗尔的一个研究团队通过迁移学习,仅用45个训练样本,就开发出一款能在超声图中定位肾脏的AI模型。另一组研究德语语音识别的学者发现,通过先用英文语音识别的大模型进行预训练,再微调以适应德语音频,最终模型性能得到了显著提升。
过去十年,迁移学习研究展现出令人鼓舞的进展。乔治城大学安全与新兴技术中心的一份报告指出,小数据解决方案大致分为五个类别:迁移学习、数据标注、人工数据生成、贝叶斯方法和强化学习。其中,迁移学习的增长速度最快且最稳定,甚至超过了近年来备受关注的强化学习领域。
预计未来几年,迁移学习技术将在小数据研究领域中发挥最大作用。使用预测模型分析,我们预测迁移学习的增长速率将远超整体AI研究的增长率。这意味着,迁移学习有望应用于更广泛的领域。
迁移学习不仅促进了数据密集型领域的进步,还对那些数据收集受限的研究领域提供了支持,如罕见自然灾害的预测、特定疾病风险评估等。此外,迁移学习提升了AI模型的通用性,使其能够在训练集外更好地处理更广泛的输入问题。它还能节省训练时间和计算资源,显著提高效率。
然而,迁移学习的效果取决于初始问题与目标问题之间的相似性。在某些情况下,如医学影像领域,数据规模、属性和任务需求与以自然图片为主的大型数据集存在本质差异。研究者正努力探索如何在不同模型间迁移有用信息,以及不同模型结构如何影响这种迁移和微调过程。
AI专家如吴恩达强调了迁移学习的重要性,认为这将是推动工业界AI成功的新动力。迁移学习已在多个领域取得成功,如癌症分类、电子游戏和垃圾邮件标记等。
值得注意的是,尽管迁移学习的研究日益增多,其关注度仍相对较低。政策制定者和商业领导者应加大对包括迁移学习在内的技术的关注和支持。
通过推广小数据技术的成果,并增加资源投入,我们能纠正人工智能领域对数据作用的误解,为AI发展开辟新路径。