GIT(GenerativeImage2Text 的缩写)模型,在 COCO 上进行了微调。
Updated 2024-12-04 14:10:01 +08:00
TexTeller 是一种基于 ViT 的模型,专为端到端公式识别而设计。它可以识别自然图像中的公式并将其转换为 LaTeX 风格的公式。
Updated 2024-11-06 14:19:50 +08:00
RoBERTa 是一个 transformers 模型,以自我监督的方式在大量英语数据语料库上进行预训练。这意味着它仅在原始文本上进行了预训练,没有人类以任何方式标记它们,并自动处理从这些文本生成输入和标签。
Updated 2024-10-29 14:15:48 +08:00
TrOCR 模型是一个编码器-解码器模型,由一个作为编码器的图像 Transformer 和一个作为解码器的文本 Transformer 组成。图像编码器是根据 BEiT 的权重初始化的,而文本解码器是从 RoBERTa 的权重初始化的。
Updated 2024-10-29 11:17:42 +08:00
GIT 是一个以 CLIP 图像标记和文本标记为条件的 Transformer 解码器。该模型使用“teacher forcing”对大量(图像、文本)对进行训练。
Updated 2024-10-29 10:16:24 +08:00