阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022

投稿
APP
微信扫一扫获取更多

阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022

陶畅

2022-07-11 00:00:00

图灵汇官网

技术突破：阿里云PAI与华东师范大学合作，发布结构感知的稀疏注意力Transformer模型SASA

阿里云机器学习平台PAI与华东师范大学高明教授团队共同研发的论文《结构感知的稀疏注意力Transformer模型SASA》于2022年SIGIR顶级会议中获得认可。该论文聚焦于Transformer模型在处理长序列时的效率提升与性能优化，特别是针对编程预训练语言模型（PPLM）中序列截断带来的上下文信息缺失问题，提出了一种结合代码语言和结构特性的新型方法。

解决的核心问题

传统基于Transformer的模型在处理长序列数据时，自我注意力模块的复杂度随序列长度呈指数增长，这限制了模型在实际应用中的表现。多数PPLM采用序列截断的方式处理代码序列，但这种方法往往导致关键上下文信息的丢失。SASA模型通过引入四种稀疏注意力模式（滑动窗口关注、全局关注、Top-k关注、AST关注）来解决这一问题，显著降低了计算复杂度与序列长度之间的关联性，提高了模型处理长序列的效率和性能。

技术亮点与贡献

稀疏注意力模式：SASA模型设计了滑动窗口关注、全局关注、Top-k关注和AST关注四种模式，分别从局部上下文、全局信息、重要元素和代码结构特性四个维度优化注意力机制。
结构感知：通过整合抽象语法树（AST）模式，SASA模型能够捕捉代码的结构特性，与序列上下文信息互补，增强模型对长代码序列的理解能力。
性能优化：相较于CodeBERT、GraphCodeBERT等方法，SASA模型在多个长代码任务上展现出最佳效果，同时降低了内存和计算复杂度，实现了高效能的模型运行。

实际应用与平台集成

SASA技术已集成至开源框架EasyNLP中，为PAI的NLP开发者提供了基于稀疏注意力机制的长序列自然语言处理能力。作为面向企业级开发者的机器学习平台，PAI提供了一系列工具和服务，包括PAI-DSW交互式建模、PAI-Designer可视化建模、PAI-DLC分布式训练以及PAI-EAS模型在线部署，全面支持从模型构建到部署的全流程需求。