在人工智能和计算机视觉领域,一种名为CLIP(对比语言-图像预训练)的模型近年来取得了巨大成功,成为了许多视觉和多模态任务的基础。然而,最近的研究表明,CLIP在区分图像中的细节差异方面存在不足,在密集预测和以视觉为中心的多模态任务上表现不佳。