为了账号安全,请及时绑定邮箱和手机立即绑定

基于加性注意力的快速视觉变换器简评

Fastformer应用于Vision Transformer

基于加性注意力的快速视觉Transformer,
快速视觉Transformer (FViT)
,来自深圳大学和西安电子科技大学,
2024 CAI(Tsang Sik-Ho @ Medium),

图像分类,
1989年 - 2023 [视觉排列器 (ViP)] [ConvMixer] [CrossFormer++] [FastViT] [EfficientFormerV2] [MobileViTv2] [ConvNeXt V2] [SwiftFormer] [OpenCLIP] 2024**[FasterViT] [CAS-ViT] [TinySaver]
==== 我还有其他论文阅读在这里 ====,

概述:
  1. 快速视觉变换器(FViT)
  2. 结果显示了
1. 快速视觉变换器(FViT)
1.1. 视觉变换器 (ViT)
  • ViT 中的 多头自注意力机制 模块:

式(1)和(2)具有二次复杂度。

1.2. 快速变换器(Fastformer)

加性注意力模块和Fastformer

  • 在视觉Transformer中,对于Q、K、V矩阵,不是使用全自注意力,而是首先应用一个加性注意力模块,将查询矩阵转化为一个带有注意力权重α的全局查询向量 q

  • 然后全局查询向量与每个键向量的逐元素相乘将它们整合成一个全局感知的键矩阵
  • 类似地,为了计算效率,i 个向量的加性注意力权重全局键向量被计算出来:

  • 然后计算两者的逐元素乘积,即全局键和值向量之间的元素级乘积。
  • 然后对每个键值交互向量应用一个线性变换层,以学习其隐藏表示,再加上查询矩阵,从而形成模型的最终输出

线性复杂性成功实现了。

2. 结果如下
  • Fastformer(b_32 和 b_16 变体)与 ViT 的 B/16 和 B/32 版本进行了比较。B/16 和 B/32 的隐藏层维度为 768,MLP 的维度为 3072。
  • 它们的头数为 12,深度设置为 12。

ImageNet 的结果

在B/16变体中,ViT达到了77%的Top-1准确度,比Fastformer-B/16的63%更好。但是Fastformer-B/16只有79M参数,而ViT-B/16则有86M参数之多。

  • Fastformer-B/16 的计算量为 45.2 GFLOPs,而 ViT-B/16 的计算量为 49.3 GFLOPs,后者比前者计算量更大。GFLOPs(每秒十亿次浮点运算)。

B/32 版本 中,ViT-B/32 的 Top-1 准确率为 73%,而 Fastformer-B/32 的准确率为 65%。但是,Fastformer-B/32 参数量为 81M,而ViT-B/32 则为 88M

  • Fastformer-B/32 的 11.6 GFLOPs 计算量比 ViT-B/32 的 12.6 GFLOPs 更低。
  • (虽然作者提到具有更少 FLOPs 的方法可以获得与 ViT 相当的性能,但精度明显下降。)
点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消