微信公众号
微信视频号
抖音号
小红书
头条号
更多
以上自媒体由本平台或本平台合作伙伴提供服务。
提示信息将显示在这里。
2月18日,DeepSeek在海外社交平台X上发布了一篇技术报告。这份报告详细说明了NSA(Natively Sparse Attention),一种针对长文本快速处理专门设计的稀疏注意力机制。这种机制经过优化,能在现有硬件上高效运行,不仅提升了推理速度,还降低了成本,同时保证了较好的性能表现。
有注意到,这篇名为《原生稀疏注意力:与硬件兼容且可原生训练的稀疏注意力机制》的论文中,DeepSeek创始人梁文锋也被列为共同作者之一。
微信里点"发现",扫一下
二维码便可将本文分享至朋友圈。