理论:Transformer不仅在NLP发光,在多模态领域也有重大影响。例如 CLIP(Contrastive Language-Image Pre-training)利用文本和图像对进行训练,使得图像和对应描述的向量相近,不匹配的远离,从而实现跨模态检索和分类。DALL·E 和 Stable Diffusion 则将Transformer/扩散模型用于图像生成:输入文本提示,模型生成相符的图像。在多模态模型中,Transformer作为通用的序列建模器,可以处理文本序列,也可以处理图像分块序列(如Vision Transformer),或两者结合。