新能源

斯坦福大学CS博士新作：Attention提速2-4倍，BERT单节点操练最快

发布时间：2025-07-30

tion 比 FlashAttention 较强能够的 IO 维度。

值得一提的是，该学术研究还开源了 FlashAttention。

实验结果

BERT：FlashAttention 得到了最慢速的单路由器 BERT 锻炼运动速度。该学术研究在 Wikipedia 上用 FlashAttention 锻炼了一个 BERT-large 仿真。请注意 1 将 FlashAttention 锻炼整整与 Nvidia MLPerf 1.1 展开了尤其，分析请注意明 FlashAttention 的锻炼运动速度大大提高了 15%。

GPT-2：请注意 2 推测，与 HuggingFace 相比之下，FlashAttention 末端到末端更快可达 3 倍，与 Megatron-LM 相比之下，更快可达 1.7 倍

Long-range Arena：该学术研究在 long-range arena (LRA) 完全符合上展开了实验，他们精确测量了抽样、吞吐量、锻炼整整。每个任务有不同的多肽宽度，从 1024 到 4096 不等。此外，实验遵循 Tay 和 Xiong 等人的实验特设。请注意 3 推测，与规格目光相比之下，FlashAttention 的运动速度大大提高了 2.4 倍。块稠密 FlashAttention 比所有值得注意目光作法都要慢速。

较强较宽上下文的语言仿真：FlashAttention 的运行整整和闪存稳定性允许我们将 GPT-2 的上下文宽度增加 4 倍，同时基本上比 Megatron-LM 的运行更慢速。从请注意 4 可以看出，上下文宽度为 4K 的 FlashAttention GPT-2 基本上比上下文宽度为 1K 的 Megatron 的 GPT-2 慢速 30%，同时 perplexity 大大提高了 0.7。

请注意 5 请注意明，在 MIMIC 上多肽宽度为 16K 的相比宽度为 512 的高达 4.3 个点，而在 ECtHR 上，多肽宽度为 8K 的比宽度 512 高达 8.5 个点。

请注意 6 展示了 Transformer 仿真可以解决 Path-X、Path-256 问题。该学术研究在 Path-64 上预锻炼 transformer，然后通过紧致最小值位置嵌入迁移到 Path-X。FlashAttention 在 Path-X 上降到 61.4 的抽样。此外，块稠密 FlashAttention 使得 Transformers 将多肽扩展到 64K，在 Path-256 借助于 63.1 的抽样。

图 3(左) 调查报告了以毫秒为单位的 FlashAttention 和块稠密 FlashAttention 前向 + 后向传播方式的运行整整与完全符合尤其，图 3(右) 推测了与各种可靠、值得注意和稠密注意时间延迟相比之下，FlashAttention 和块稠密 FlashAttention 的闪存闲置情况。

。

眼睛视疲劳用什么眼药水好
直肠肿瘤手术后吃什么
治疗眼干用什么药
退烧药
安必丁的用药注意事项

上一篇：外设限时额外95折，美商水手618狂欢

下一篇：实验室混凝土搅拌机发力多领域给您更加多惊喜