2017年6月,谷歌发布了论文《Attention is All You Need》,提出了Transformer架构,这一架构在不到四年的时间里迅速崛起,成为自然语言处理领域的主流模型。不仅如此,Transformer也开始在其他领域崭露头角,特别是在计算机视觉方面。
2020年10月,谷歌推出了Vision Transformer (ViT),这是一种可以直接应用于图像分类的模型,无需使用卷积网络。ViT模型在计算资源方面表现优异,取得了与当前最优卷积网络相当的效果。
同年12月,来自复旦大学、牛津大学和腾讯的研究团队提出了Segmentation Transformer(SETR),将语义分割任务视为序列到序列的预测问题,该模型在ADE20K数据集上取得了领先的成绩。
2021年初,OpenAI推出了一系列新模型,包括DALL·E和CLIP,这两个模型均利用了Transformer架构,实现了自然语言与视觉之间的深度融合。DALL·E可以根据文本生成图像,而CLIP则能够实现图像与文本类别的匹配。
因此,“Transformer是万能的吗?”成为了近期机器学习社区热议的话题。谷歌大脑研究员David Ha甚至表示:“Transformer是新的LSTM。”
David Ha在2017年曾预言:“LSTM就像神经网络中的AK47,无论我们多么努力地想要用新技术取代它,都将是徒劳的。”然而,仅仅一个月后,Transformer的出现打破了这一预言,这仅用了四年时间。
著名机器学习资源网站Papers with Code在1月20日发布的Newsletter中列举了近期运用Transformer的十大新应用领域:
除了David Ha,英伟达研究科学家、前OpenAI研究科学家Ankur Handa也表示:“Transformers是所有你需要的一切”。
Transformer的强大主要归功于其注意力机制。注意力机制最早在2014年由Bengio团队引入神经机器翻译任务,但当时模型的核心架构仍是RNN。相比之下,Transformer完全摒弃了传统的CNN和RNN,整个网络结构由注意力机制组成,带来了颠覆性的效果提升。
尽管如此,Sepp Hochreiter等人在2020年7月发表的论文《Hopfield Networks is All You Need》指出,Transformer中的注意力机制实际上等价于扩展到连续形式的modern Hopfield网络中的更新规则。
LSTM是一种特殊的循环神经网络(RNN),由Sepp Hochreiter和Jürgen Schmidhuber于1997年联合发表。LSTM单元的基本结构包括输入门、遗忘门和输出门,解决了RNN中梯度消失和梯度爆炸的问题。
随着时间的推移,越来越多的研究工作探索如何将Transformer应用于计算机视觉等其他领域。从模型的应用范围来看,Transformer似乎已经具备了成为新一代“全能选手”的潜力。
不知未来是否还会有人预言“Transformer无法被替代,还可以再用50年”,而这样的预言又会在多久后被打破。