CLIP ViT-32 预训练模型
CLIP ViT-32 是一种基于 Vision Transformer (ViT) 架构的预训练模型,图像编码器部分采用了 ViT-32 结构。该模型在大量的图像-文本对数据集上进行训练,能够学习到图像和文本之间的语义对应关系,可用于图像分类、图像检索、文本到图像生成等多种任务。
337.58MB
文件大小:
评论区