您当前的位置:首页 >> 新能源
新能源

斯坦福大学CS博士新作:Attention提速2-4倍,BERT单节点操练最快

发布时间:2025-07-30

tion 比 FlashAttention 较强能够的 IO 维度。

值得一提的是,该学术研究还开源了 FlashAttention。

实验结果

BERT:FlashAttention 得到了最慢速的单路由器 BERT 锻炼运动速度。该学术研究在 Wikipedia 上用 FlashAttention 锻炼了一个 BERT-large 仿真。请注意 1 将 FlashAttention 锻炼整整与 Nvidia MLPerf 1.1 展开了尤其,分析请注意明 FlashAttention 的锻炼运动速度大大提高了 15%。

GPT-2:请注意 2 推测,与 HuggingFace 相比之下,FlashAttention 末端到末端更快可达 3 倍,与 Megatron-LM 相比之下,更快可达 1.7 倍

Long-range Arena:该学术研究在 long-range arena (LRA) 完全符合上展开了实验,他们精确测量了抽样、吞吐量、锻炼整整。每个任务有不同的多肽宽度,从 1024 到 4096 不等。此外,实验遵循 Tay 和 Xiong 等人的实验特设。请注意 3 推测,与规格目光相比之下,FlashAttention 的运动速度大大提高了 2.4 倍。块稠密 FlashAttention 比所有值得注意目光作法都要慢速。

较强较宽上下文的语言仿真:FlashAttention 的运行整整和闪存稳定性允许我们将 GPT-2 的上下文宽度增加 4 倍,同时基本上比 Megatron-LM 的运行更慢速。从请注意 4 可以看出,上下文宽度为 4K 的 FlashAttention GPT-2 基本上比上下文宽度为 1K 的 Megatron 的 GPT-2 慢速 30%,同时 perplexity 大大提高了 0.7。

请注意 5 请注意明,在 MIMIC 上多肽宽度为 16K 的相比宽度为 512 的高达 4.3 个点,而在 ECtHR 上,多肽宽度为 8K 的比宽度 512 高达 8.5 个点。

请注意 6 展示了 Transformer 仿真可以解决 Path-X、Path-256 问题。该学术研究在 Path-64 上预锻炼 transformer,然后通过紧致最小值位置嵌入迁移到 Path-X。FlashAttention 在 Path-X 上降到 61.4 的抽样。此外,块稠密 FlashAttention 使得 Transformers 将多肽扩展到 64K,在 Path-256 借助于 63.1 的抽样。

图 3(左) 调查报告了以毫秒为单位的 FlashAttention 和块稠密 FlashAttention 前向 + 后向传播方式的运行整整与完全符合尤其,图 3(右) 推测了与各种可靠、值得注意和稠密注意时间延迟相比之下,FlashAttention 和块稠密 FlashAttention 的闪存闲置情况。

眼睛视疲劳用什么眼药水好
直肠肿瘤手术后吃什么
治疗眼干用什么药
退烧药
安必丁的用药注意事项

上一篇: 外设限时额外95折,美商水手618狂欢

下一篇: 实验室混凝土搅拌机发力多领域给您更加多惊喜

友情链接