# Summary
# Cues
# Notes
## VLM 是啥?
**VLM** 的全称是 **Vision-Language Model**,中文常译作「视觉-语言模型」。它是大模型家族中的一个分支,和 LLM(Large Language Model, 大语言模型)相呼应。
### 基本含义
- **LLM**:输入是文本 → 输出是文本。
- **VLM**:输入可以包含 **图像/视频(视觉模态)+ 文本**,输出通常是文本(有时也能生成图像、做多模态对齐)。
### 典型能力
- **图文理解**:比如给它一张图片,问「这张图里的人在做什么?」
- **多模态对齐**:把文字和图像信息对应起来,例如「找到图片里标注的红色框区域是什么物体」。
- **应用场景**:图片描述生成(Image Captioning)、视觉问答(Visual QA)、图文检索、辅助医学影像诊断等。
---
## 和 MLLM 的关系
有时你会看到 **MLLM (Multimodal LLM,多模态大语言模型)**,它和 VLM 的区别比较模糊:
- VLM 一般特指「视觉 + 文本」两模态;
- MLLM 范围更广,可能包含语音、动作、传感器数据等多种模态。