Swin Transformer 是 Vision Transformer 的一种。它通过在更深的层中合并图像块（以灰色显示）来构建分层特征图，并且由于仅在每个局部窗口（以红色显示）内计算自注意力，因此输入图像大小具有线性计算复杂性。

Go to file

YYJ-aaaa b9f3bf3b47 first commit		2024-11-26 15:52:53 +08:00
.gitattributes	Add .gitattributes	2024-11-26 15:19:39 +08:00
README.md	Initial commit	2024-11-26 15:19:39 +08:00
config.json	first commit	2024-11-26 15:52:53 +08:00
model.safetensors	first commit	2024-11-26 15:52:53 +08:00
preprocessor_config.json	first commit	2024-11-26 15:52:53 +08:00
pytorch_model.bin	first commit	2024-11-26 15:52:53 +08:00
tf_model.h5	first commit	2024-11-26 15:52:53 +08:00

README.md

swin-base-patch4-window7-224-in22k_a13728898010050560647515

Swin Transformer 是 Vision Transformer 的一种。它通过在更深的层中合并图像块（以灰色显示）来构建分层特征图，并且由于仅在每个局部窗口（以红色显示）内计算自注意力，因此输入图像大小具有线性计算复杂性。