首页

前端开发

Nodejs

CLIP ViT-32 预训练模型

20 次浏览 2024-06-16 0 条评论

预训练模型

CLIP ViT-32 是一种基于 Vision Transformer (ViT) 架构的预训练模型，图像编码器部分采用了 ViT-32 结构。该模型在大量的图像-文本对数据集上进行训练，能够学习到图像和文本之间的语义对应关系，可用于图像分类、图像检索、文本到图像生成等多种任务。

文件大小：337.58MB

暂无评论，快来说点什么吧~