首页 泰迪杯2024数据挖掘比赛B题【解题方案】
文章
取消

泰迪杯2024数据挖掘比赛B题【解题方案】

参考项目:Chinese-CLIP

项目作品:2024泰迪杯数据挖掘中比赛的论文与代码等资源。 (github.com)

简介

本次比赛,我们直接采用现有的多模态模型进行微调,这个模型就是 CLIP 了,但是我们并没有直接使用 CLIP 模型,而是寻找到了一个开源的中文项目。

Chinese-CLIP 是一次极其朴素的开源,没错就是 CLIP 的汉化,旨在推动中文社区多模态发展。

相比于 CLIP 模型,Chinese-CLIP 更适合我们的应用和微调,因为原始的 CLIP 模型只支持英文,对于我们的中文应用来说不够友好。Chinese-CLIP 很好地弥补了这方面的不足,它使用了大量的中文 - 文图对进行训练,与 CLIP 模型架构完全一致。

关于 Chinese-CLIP

Chinese-CLIP 延续了 CLIP 的模型架构,使用了不同的训练方式以及全新的中文数据集,即在双流架构和对比学习的支持下,能够有效地整合中文的图像和文本信息到一个共享的嵌入空间,并拥有处理多模态数据的能力。初始阶段以预训练的方式设定了两种编码器:一种是 CLIP 的视觉编码器,另一种是中文版的 RoBERTa 文本编码器image.png

参考文献

本文由作者按照 CC BY 4.0 进行授权

无从下手

搭建英语语法框架