随着 Agent 的普遍应用带来的长序列需求,,,,古板 GPT 架构的 Attention 部分,,,,由于其 O (N^2) 的盘算重漂后,,,,正逐渐被视为性能瓶颈而遭到替换。。。而 Attention 机制的架构迭代,,,,也正在以亘古未有的速率推进。。。现在业界的主流计划大致可以分为两种:Linear Attention 和 Sparse Attention。。。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 为代表,,,,实质上是通过刷新后的 Linear Attention 来实现信息压缩,,,,使得存储价钱压缩到 O(1) ,,,,盘算价钱压缩到 O(N);;;;;;而 Sparse Attention 则主要通过希罕化来优化盘算开销,,,,实践中往往能够抵达靠近 90% 以上的希罕度,,,,这也是在 DeepSeek-V4 中被正式接纳的手艺蹊径。。。
然而,,,,在 RTPurbo 中 [1],,,,前期事情已经充分指出,,,,使用 Full Attention+Sliding Window Attention(SWA)就已经可以在精度无损的包管下,,,,将原生 Transformer 的 85% 注重力头酿成 SWA,,,,实现 15% Full Attention + 85% SWA 的混淆架构,,,,实现 5X 的 KV 和 Attention 压缩。。。无独吞偶,,,,在近期的一些开源架构,,,,如 MIMO、Gemma4、GPT-OSS 中,,,,也使用了 SWA+Full Attention 这一设计,,,,颇有一种 “大道至简” 的设计思绪。。。
只管替换了 85% 的 Full Attention 成 SWA,,,,剩下的 15% Full Attention 在超长序列(1M)下仍然会成为性能瓶颈。。。今天,,,,为了彻底解决 Attention 的推理瓶颈,,,,来自阿里的 RTP 团队推出了第二代 Attention 压缩手艺:RTPurboV2。。。通过连系 Headwise 压缩,,,,低秩投影压缩,,,,以及聚类手艺,,,,RTPurboV2 可以在 V1 架构的基础上,,,,进一步在 Full Attention 部分实现 16~32 倍盘算压缩。。。
Full Attention 模子在预训练历程中,,,,已经自觉地形成磷七度希罕的注重力结构。。。我们要做的不是 "强加" 希罕性,,,,而是 "释放" 它。。。这个判断建设在四个可量化的要害发明之上。。。
研究职员发明,,,,在 Full Attention 模子中,,,,差别的 Attention Head 现实上肩负着差别的职责。。。有些 Head 专注于捕获局部信息(好比相邻 token 之间的关系),,,,有些 Head 则认真捕获长距离依赖(好比与自身相关信息的关联)。。。
约 15% 的 Head 体现出显着的 "召转头"(retrieval head)特征:它们的注重力漫衍很是希罕,,,,只关注少数几个要害 token,,,,认真长距离信息召回其余 85% 的 Head 则是 "流式头"(streaming head):它们的注重力漫衍相对匀称,,,,更多关注局部上下文
这种分工模式在差别输入、差别序列长度下高度稳固,,,,是模子在预训练中自觉习得的内在结构。。。直接推论:85% 的 Full Attention 盘算可以清静地替换为 SWA(参考 RTPurbo),,,,险些不影响模子能力。。。真正需要解决的,,,,只有剩余 15% 召转头的高效盘算问题
召转头的焦点使命是在整个序列中做语义匹配 —— 看起来仍然是 O (N^2) 的问题。。。RTPurboV2 的焦点手艺升级之一是关于召转头和 RoPE 的详尽明确。。。在深入剖析 RoPE 位置编码的频率结构后,,,,团队发明了召转头的 RoPE 分量保存显著的维度冗余。。。在 RoPE 下,,,,Query-Key 的注重力得分可以剖析为差别频率分量的叠加:
低频分量(θ_i 较小。。核嫖恢闷苹郝,,,,承载 token 间的语义相关性信号高频分量(θ_i 较大):随位置偏移快速振荡,,,,引入距离敏感性滋扰
关于长距离检索而言,,,,高频分量导致注重力得分随位置距离强烈波动,,,,削弱了语义信号的稳固转达。。。而从召回使命自己的性子出发:一个 token 的召回强度不应随相对位置的转变而快速波动。。。由此可以推断,,,,在召转头上的高频分量一定是出于被压制状态,,,,召转头实质上只会使用 RoPE 低频分量。。。
因此,,,,一个很自然的设计是训练一个低维 projector,,,,我们通过低秩映射将原始特征维度从 D 压缩至 r=16 (其中 r ? D),,,,系统性地保存低频语义分量、过滤高频位置噪声。。。实验验证,,,,仅 16 维即可抵达 90%+ 的 token 召回率。。。
这是 RTPurboV2 的焦点手艺升级之二。。。团队意识到低秩投影带来的增益不止于盘算量的直接降低 —— 它从基础上改善了 Key 向量在语义空间中的漫衍质量。。。高频噪声被过滤后,,,,语义相似的 token 在低秩空间中自然聚拢,,,,语义无关的 token 相互远离。。。这为序列维度的进一步压缩创立了理想条件。。。
特征维度压缩→ 降低单步盘算开销,,,,同时产出高质量聚类输入序列维度压缩(聚类)→ 跳过大宗语义无关 token,,,,降低总盘算步数协同效应 → 特征压缩提纯后的向量让聚类中心更精准,,,,使得在极端压缩比下依然坚持高召回率
古板的希罕注重力要领通常接纳牢靠 top-k 战略,,,,即每个 query 只保存 attention score 最高的 k 个 token。。。但这种做法保存一个根天性问题:差别的 attention head、差别的序列长度、差别的 query,,,,所需的上下文 token 数目差别重大。。。
在数十万亿 token 的预训练语境下,,,,1M token 险些可以忽略。。。这也从另一个角度验证了焦点论点:Full Attention 的希罕性是内生的,,,,微调只是完成从隐式到显式的转化。。。
在 Qwen3-Coder-30B-A3B 模子上,,,,我们通过离线校准识别出约 15% 的要害 “召转头”。。。针对这些 Head,,,,我们在 Prefill 阶段接纳 Full Attention 并配合 K Cache 聚类,,,,在 Decode 阶段则应用 RTPurboV2 实现希罕化;;;;;;其余流式头统一接纳 SWA(局部窗口设为 8192)。。。
如图 3 所示,,,,RTPurboV2 在 32K 和 64K 序列长度下均取得了最优平均分(划分为 89.69 和 85.61),,,,显著优于除 Full Attention 外的所有基线要领,,,,证实晰其在长程信息召回上的卓越精度。。。
针对 Qwen3.5-35B-A3B 模子,,,,校准显示其凌驾 70% 的 Head 具有召回特征。。。为此,,,,我们接纳了全量希罕化战略。。。实验效果(图 4)批注,,,,RTPurboV2 在大幅降低盘算开销的同时,,,,完整保存了模子的基础能力,,,,精度体现与 Full Attention 持平。。。
在链式头脑(CoT)推理使命中,,,,RTPurboV2 同样体现精彩(图 5),,,,实现了模子推理能力的近乎无损保存,,,,进一步验证了该计划在重大逻辑场景下的鲁棒性。。。
目今注重力机制的研究重心,,,,大宗集中在设计全新的高效架构上。。。这条路径无疑有其价值。。。但 RTPurboV2 展现了一个容易被忽视的事实:Full Attention 模子自身就蕴含着重大的效率空间,,,,而释放这种内生希罕性的本钱极低。。。
600 步训练,,,,精度险些无损,,,,Prefill 最高 9.36 倍加速。。。这意味着,,,,关于选择 SWA + Full Attention 混淆架构的团队 —— 包括 MIMO、Gemma 4、GPT-OSS——不需要替换架构就能获得靠近 SOTA 新计划的压缩效率
RTP-LLM 是阿里巴巴智能引擎团队自研的高性能大模子推理引擎,,,,支持了淘宝、天猫、高德等焦点营业的大模子推理需求。。。智能引擎源自阿里巴巴搜索、推荐和广告手艺,,,,是阿里 AI 工程领域的先行者和深耕者。。。团队专注于 AI 工程系统的建设,,,,主导建设了大数据 AI 工程系统 AI?OS,,,,一连为阿里集团各营业提供高质量的 AI 工程效劳。。。
《罪恶之渊动漫全集》整个过程中,视频生成模型的原始参数和视觉语言模型的参数都保持不变,只有那个小小的LoRA插件在针对这个特定任务做调整。这意味着每次优化都是高度个性化的——针对这道题,专门调整,用完即止,不影响下一道题。《马卡报》节目中还强调,尽快结束这场争论是有必要的。大赛临近,任何关于门将位置的讨论都可能给球队带来不必要的噪音。《罪恶之渊动漫全集》《讨教教我吧藤先生》漫画下拉式研究团队面临的核心挑战是:如何在不使用真实用户数据的前提下,创建一个足够逼真的测试环境来考察AI的真实能力?他们的解决方案是构建一套精密的模拟系统,整个系统由三个相互配合的部分构成,就像搭建一个精密剧本演出所需的舞台、演员和剧情一样。纳格尔斯曼:美国这边有暖季草和冷季草,这本身就是一个区别,因为这里横跨很多不同的气候带。这里的草比较密,看上去更像一块地毯。说实话,它不像我们平常见到的那种经典草坪,更像是一块铺好的地毯,不过球场整体状况很好。因为底层更软一些,所以球的弹跳会稍微少一点,场地会吸收更多球的反弹力量,不过这块场地完全在合理范围之内。
20260608 ? 《罪恶之渊动漫全集》穆巴拉克表示:“所以,当你投资一家企业时,其实有很多不同的方式。你从“投资”这个词本身去理解——当然,这也是我谋生所做的事情——你可以选择一种偏向短期收益的投资方式,也就是说只关注今天的利润,比如我今天就要分红,今天就要看到回报。或者你也可以选择另一种思路,那就是去打造企业的长期价值,也就是你投资的这家公司的整体价值增长。在这种模式下,你不急于把利润拿走,而是希望企业本身的价值不断提升。投资方式和模型有很多种,并不仅限于这两类,还有许多其他形式。《《呼吸太过》的动漫》“对方没有像俄罗斯如此自主量产各类打击武器的能力,这包括高超音速武器、全谱系巡航导弹以及多款别国不具备的打击装备,例如被广泛讨论的‘榛树’ 中程武器,”他补充说,“我们也在开发其他打击武器。”
20260608 ? 《罪恶之渊动漫全集》也许是看到谢苗火了,释小龙也在同样的赛道上复制和发力了,也许是片方想要蹭谢苗的热度,但两人的电影相差5天上映,不得不怀疑一切是偶然的吗?《托付了姐姐》樱;;;;;ㄈ“我随时准备提供帮助,也随时准备平息事态。我们应该帮助他们营造一个能够应对干扰、专注投入并尽最大努力完成我们为他们设定的角色的环境。