梦晨 发自 凹非寺量子位 | 公众号 QbitAI
新式耀眼力机制TPA,姚期智院士团队打造。
TPA对每个token作念动态的张量判辨,不存储好意思满的静态KV,而是保留判辨的版块,内存占用简陋90%(梗概更多),而不会罢休性能。
论文中还解说了流行的MHA、MQA、GQA王人是TPA的特地情况,用一个框架颐养了当代耀眼力预计打算。
用此门径测验的新模子T6,代码已在GitHub开源。
论文发布后,有创业者默示,终于毋庸付那么多钱给云厂商了。
也有接洽者以为,论文中的现实看起来很有但愿,不外现实中的模子限制有点小,但愿看到更多甘休。
动态张量判辨,无缝集成RoPE
尽管现存的耀眼力机制在宽敞任务中得回了可以的成果,但它一经有算计和内存支出大的劣势。
DeepSeek-v2中提倡的MLA压缩了KV缓存,但与RoPE位置编码不兼容,每个耀眼力头需要稀奇的位置编码参数。
为了克服这些门径的局限性,团队提倡张量积耀眼力(TPA,Tensor Product Attention)。
新门径在耀眼力算计经由中对QKV作念判辨。
与LoRA系列低秩判辨门径比较,TPA将QKV隔离构造为与高下文筹谋的判辨张量,竣事动态稳当。
通过只缓存判辨后的秩,竖立稳当的参数可使内存占用裁汰90%或以上。
关于流行的RoPE位置编码,TPA可以与之无缝集成,竣事以较低的资本旋转判辨KV,无需进行复杂的诊疗。
在现实中,使用FineWeb-Edu 100B数据集测验模子,TPA与其他耀眼力预计打算比较永恒保抓较低的困惑度。
在ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样人性能。TPA和TPA-KVonly在大大王人任务中王人优于或匹配扫数基线。
论文由清华&上海期智接洽员团队、UCLA顾全全团队合营,共合并看成清华博士生张伊凡与姚班学友、现UCLA博士生刘益枫。
此外还有来自心动汇聚Taptap的Qin Zhen。
论文地址:https://arxiv.org/abs/2501.06425开源代码:https://github.com/tensorgi/T6
参考汇聚:[1]https://x.com/yifan_zhang_/status/1879049477681741896
Powered by 尊龙凯时人生就是博·(中国)官方网站 @2013-2022 RSS地图 HTML地图