循环缓存优化的滑动窗口注意力机制加速技术
2025-02-11 21:19
No.1338982884396244992
技术概要
PDF全文
本技术介绍了一种循环缓存优化的滑动窗口注意力机制加速方法及其装置,旨在提高滑动窗口注意力机制中的内存存储效率,解决大模型在序列处理上速度慢的问题。
背景技术
随着人工智能技术的发展,特别是深度学习技术的进步,注意力机制(AttentionMechanism),因其在处理长依赖关系上的优越性能而逐渐成为自然语言处理、语音识别等技术领域的核心组件。传统的神经网络模型在处理长序列时存在梯度消失或梯度爆炸的问题,同时,随着序列长度的增长,模型计算的复杂度与序列长度的平方成线性关系,这使得大模型在长序列数据上的处理变得非常耗时。 近年来,Transformer架构通过引入滑动窗口自注意力机制(Sliding WindowAttention,SWA),允许模型并行处理固定窗口大小的数据,从而显著提高了训练效率。 SWA的计算过程如下: 其中,为二维矩阵,N1为文本长度,H为隐藏层长度;dk 为矩阵第二维度的长度H,KT 为矩阵K的转置。在进行softmax处理之前乘以一个掩码(),SA的Mask为下三角的矩阵,使得每个文本位置的token只注意到该位置及之前的文本内容。SWA的Mask与SA不同,存在一个窗口大小(window size),使得Attention只关注窗口大小内的文本内容。 在大模型(Large Language Model,LLM)推理过程了为了减少模型的重复计算,一般会使用KV Cache技术对Attention中计算的K、V矩阵进行缓存,避免了新请求Query推理计算时重复历史KV矩阵的计算,降低模型推理的计算量,提高模型的推理速度。 然而现有的一些KV Cache技术对于SWA计算存在内存的利用率较低、存储效率低下的问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
岳丹阳
技术所属: 上海岩芯数智人工智能科技有限公司
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利