EfficientNet 是一种移动友好的纯卷积模型 (ConvNet),它提出了一种新的缩放方法,该方法使用简单但高效的复合系数统一缩放深度/宽度/分辨率的所有维度。
Updated 2024-11-01 09:29:26 +08:00
Llama-2-7b-hf模型微调预设模型
Updated 2024-10-30 15:49:37 +08:00
Perceiver IO 是一个 transformer 编码器模型,可以应用于任何模态(文本、图像、音频、视频等)。核心思想是在一组不太大的潜在向量(例如 256 或 512)上采用自我注意机制,并且只使用输入来执行与潜在向量的交叉注意。
Updated 2024-10-29 17:41:11 +08:00
ConvNeXT 是一个纯卷积模型 (ConvNet),其灵感来自 Vision Transformers 的设计,声称其性能优于它们。作者从 ResNet 开始,并以 Swin Transformer 为灵感,对其设计进行了“现代化”改造。
Updated 2024-10-29 17:21:57 +08:00
此模型是 food101 数据集上 google/vit-base-patch16-224-in21k 的微调版本。
Updated 2024-10-29 16:34:40 +08:00
微软团队提出了一个新的架构,名为CvT,它通过在ViT中引入卷积来改进ViT的性能和效率。这是通过两个主要的改进来实现的:一个是新的卷积token embedding,一个是利用卷积投影的卷积变形器块。这些变化为ViT架构引入了卷积神经网络(CNN)的理想特性(如平移、缩放和失真不变性),同时保持了变形器的优点(如动态注意力、全局背景和更好的概括性)。
Updated 2024-10-29 15:06:23 +08:00
XLNet 是一种基于新颖的广义排列语言建模目标的新型无监督语言表示学习方法。此外,XLNet 采用 Transformer-XL 作为主干模型,在涉及长上下文的语言任务中表现出出色的性能。总体而言,XLNet 在各种下游语言任务(包括问答、自然语言推理、情感分析和文档排名)上取得了最先进的 (SOTA) 结果。
Updated 2024-10-29 14:52:23 +08:00
RoBERTa 是一个 transformers 模型,以自我监督的方式在大量英语数据语料库上进行预训练。这意味着它仅在原始文本上进行了预训练,没有人类以任何方式标记它们,并自动处理从这些文本生成输入和标签。
Updated 2024-10-29 14:15:48 +08:00
TrOCR 模型是一个编码器-解码器模型,由一个作为编码器的图像 Transformer 和一个作为解码器的文本 Transformer 组成。图像编码器是根据 BEiT 的权重初始化的,而文本解码器是从 RoBERTa 的权重初始化的。
Updated 2024-10-29 11:17:42 +08:00
GIT 是一个以 CLIP 图像标记和文本标记为条件的 Transformer 解码器。该模型使用“teacher forcing”对大量(图像、文本)对进行训练。
Updated 2024-10-29 10:16:24 +08:00
Updated 2024-10-28 20:11:55 +08:00
Updated 2024-10-28 19:53:10 +08:00
Updated 2024-10-28 19:36:37 +08:00
Updated 2024-10-28 19:27:44 +08:00
Updated 2024-10-28 19:24:21 +08:00
Updated 2024-10-28 17:24:41 +08:00
Updated 2024-10-28 16:43:30 +08:00
Updated 2024-10-28 16:30:09 +08:00