Google 的 Pix2Struct是一种用于理解视觉情境语言的预训练图像到文本模型。 该模型使用新颖的学习技术进行训练,将网页的屏幕截图解析为简化的HTML,为一系列下游活动提供非常适合的预训练数据源。
Go to file
pice35408784b54431987c4d13c457b9cd ddc975de87 Add .gitattributes
Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>
2024-09-25 15:28:34 +08:00
.gitattributes Add .gitattributes 2024-09-25 15:28:34 +08:00
README.md Initial commit 2024-09-25 15:28:34 +08:00

README.md

pix2struct-large

Google 的 Pix2Struct是一种用于理解视觉情境语言的预训练图像到文本模型。 该模型使用新颖的学习技术进行训练将网页的屏幕截图解析为简化的HTML为一系列下游活动提供非常适合的预训练数据源。