阿里云机器学习平台PAI与华东师范大学高明教授团队共同研发的论文《结构感知的稀疏注意力Transformer模型SASA》于2022年SIGIR顶级会议中获得认可。该论文聚焦于Transformer模型在处理长序列时的效率提升与性能优化,特别是针对编程预训练语言模型(PPLM)中序列截断带来的上下文信息缺失问题,提出了一种结合代码语言和结构特性的新型方法。
传统基于Transformer的模型在处理长序列数据时,自我注意力模块的复杂度随序列长度呈指数增长,这限制了模型在实际应用中的表现。多数PPLM采用序列截断的方式处理代码序列,但这种方法往往导致关键上下文信息的丢失。SASA模型通过引入四种稀疏注意力模式(滑动窗口关注、全局关注、Top-k关注、AST关注)来解决这一问题,显著降低了计算复杂度与序列长度之间的关联性,提高了模型处理长序列的效率和性能。
SASA技术已集成至开源框架EasyNLP中,为PAI的NLP开发者提供了基于稀疏注意力机制的长序列自然语言处理能力。作为面向企业级开发者的机器学习平台,PAI提供了一系列工具和服务,包括PAI-DSW交互式建模、PAI-Designer可视化建模、PAI-DLC分布式训练以及PAI-EAS模型在线部署,全面支持从模型构建到部署的全流程需求。
本研究由刘婷婷、汪诚愚、陈岑、高明和周傲英共同完成。他们的合作不仅推动了人工智能领域智能信息检索方向的理论创新,也展示了中国机器学习系统技术创新在国际舞台上的竞争力。