阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022

图灵汇官网

技术突破:阿里云PAI与华东师范大学合作,发布结构感知的稀疏注意力Transformer模型SASA

阿里云机器学习平台PAI与华东师范大学高明教授团队共同研发的论文《结构感知的稀疏注意力Transformer模型SASA》于2022年SIGIR顶级会议中获得认可。该论文聚焦于Transformer模型在处理长序列时的效率提升与性能优化,特别是针对编程预训练语言模型(PPLM)中序列截断带来的上下文信息缺失问题,提出了一种结合代码语言和结构特性的新型方法。

解决的核心问题

传统基于Transformer的模型在处理长序列数据时,自我注意力模块的复杂度随序列长度呈指数增长,这限制了模型在实际应用中的表现。多数PPLM采用序列截断的方式处理代码序列,但这种方法往往导致关键上下文信息的丢失。SASA模型通过引入四种稀疏注意力模式(滑动窗口关注、全局关注、Top-k关注、AST关注)来解决这一问题,显著降低了计算复杂度与序列长度之间的关联性,提高了模型处理长序列的效率和性能。

技术亮点与贡献

  • 稀疏注意力模式:SASA模型设计了滑动窗口关注、全局关注、Top-k关注和AST关注四种模式,分别从局部上下文、全局信息、重要元素和代码结构特性四个维度优化注意力机制。
  • 结构感知:通过整合抽象语法树(AST)模式,SASA模型能够捕捉代码的结构特性,与序列上下文信息互补,增强模型对长代码序列的理解能力。
  • 性能优化:相较于CodeBERT、GraphCodeBERT等方法,SASA模型在多个长代码任务上展现出最佳效果,同时降低了内存和计算复杂度,实现了高效能的模型运行。

实际应用与平台集成

SASA技术已集成至开源框架EasyNLP中,为PAI的NLP开发者提供了基于稀疏注意力机制的长序列自然语言处理能力。作为面向企业级开发者的机器学习平台,PAI提供了一系列工具和服务,包括PAI-DSW交互式建模、PAI-Designer可视化建模、PAI-DLC分布式训练以及PAI-EAS模型在线部署,全面支持从模型构建到部署的全流程需求。

论文详情


发表团队与贡献者

本研究由刘婷婷、汪诚愚、陈岑、高明和周傲英共同完成。他们的合作不仅推动了人工智能领域智能信息检索方向的理论创新,也展示了中国机器学习系统技术创新在国际舞台上的竞争力。

本文来源: 图灵汇 文章作者: 陶畅
    下一篇

7月7日,临港国际创新协同区数字场景应用发布会在创晶科技中心举办。现场发布了包括AI+无人测试基地自动清扫、AI+园区防疫、AI+数字底座升级、AI+园区商业、AI+交通出行在内的5大数字化场景应用