Swin Transformer 是 Vision Transformer 的一种。它通过在更深的层中合并图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口(以红色显示)内计算自注意力,因此输入图像大小具有线性计算复杂性。
Go to file
pice35408784b54431987c4d13c457b9cd fdbbd79806 Initial commit 2024-11-26 15:19:39 +08:00
README.md Initial commit 2024-11-26 15:19:39 +08:00

README.md

swin-base-patch4-window7-224-in22k_a13728898010050560647515

Swin Transformer 是 Vision Transformer 的一种。它通过在更深的层中合并图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口(以红色显示)内计算自注意力,因此输入图像大小具有线性计算复杂性。