遇事不决，XGBoost，梯度提升比深度学习更容易赢得Kaggle竞赛

廖佳玮

2021-06-16 09:18:54

标题：机器学习竞赛中的算法选择：深度学习与梯度提升的较量

正文：

在众多机器学习竞赛中，参赛者常常面临一个抉择：使用深度学习算法还是梯度提升算法？尽管深度学习在图像识别、自然语言处理等领域表现出色，但统计数据显示，梯度提升算法在赢得比赛方面更胜一筹。这一现象令人困惑，深度学习为何在某些场合不如传统的梯度提升算法？

Reddit论坛上的机器学习社区对此进行了深入探讨。一位用户提出，梯度提升算法在处理表格型数据时表现优异，而深度学习算法则更擅长处理大规模非表格数据，如图像、音频、文本等。然而，这背后的原因是否能用数学原理来解析？能否通过数据集的特性来判断哪种算法更适合特定任务？这样的讨论引发了广泛兴趣。

一位参与者指出，这是一个值得深入研究的领域，甚至可以成为博士论文的主题。关键在于特征的提取能力。基于树的梯度提升算法能够简洁地分割数据，而深度学习则需要多个隐藏层来实现数据空间的高维变换，这一过程对于复杂数据集来说可能效率低下。

深度学习的优势在于自动创建隐藏特征，即便是手工创建特征也无法完全匹配深度网络的能力。然而，在Kaggle等竞赛中，数据集通常较小，深度学习算法面临过拟合的风险，且正则化方法受限于数据集的特点。因此，对于表格数据而言，直接使用梯度提升算法可能更为高效稳定。

一位经验丰富的参赛者补充道，不同的深度学习模型（如卷积神经网络CNN和循环神经网络RNN）在特定数据集上表现更好，但Kaggle提供的数据集往往难以找到合适的预训练模型。总的来说，深度学习在处理表格数据时可能不如梯度提升算法，但在需要大量优化网络架构的情况下，其性能优势仍然显著。

竞赛中的胜利方案往往结合了深度学习与梯度提升算法，有经验的参赛者能在短时间内取得不错的结果。这一发现强调了在机器学习竞赛中综合运用不同算法的重要性。

梯度遇事竞赛深度赢得提升容易 XGBoost Kaggle 学习

本文来源：互联网文章作者：廖佳玮

shanghaiwwl

2021-03-31

导读：机器之心报道编辑：陈萍、蛋酱机器学习内卷了吗？「没有博士学位，在机器学习领域就业会变得越来越难吗？」最近，一个 Reddit 热帖引发了大量讨论。对于单个研究者、从业者来说，毫无疑问，机

论机器学习领域的内卷：不读PhD，我配不配找工作？