# git-base_a13409064600334336897081 GIT 是一个以 CLIP 图像标记和文本标记为条件的 Transformer 解码器。该模型使用“teacher forcing”对大量(图像、文本)对进行训练。