BEiT(基于ImageNet-22k进行细调的基准模型)
Updated 2024-09-25 15:00:16 +08:00
SegFormer是一种用于语义分割的框架,结合了分层Transformer编码器和轻量级的全连接多层感知机解码器。编码器避免了位置编码,适应不同测试分辨率,解码器通过融合不同层次信息生成分割掩码。在多个数据集上,SegFormer在效率和准确性上优于现有方法,展示了Transformer在语义分割任务中的潜力。
Updated 2024-09-25 14:13:05 +08:00
ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型‘’简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。
Updated 2024-09-24 11:09:51 +08:00