```Java
计算机科学
└── 人工智能(AI)
└── 机器学习(ML)
└── 表征学习 / 表示学习(Representation Learning)
└── 深度学习(Deep Learning)
├── 训练范式
│ ├── 监督学习
│ ├── 自监督 / 预训练 ✧
│ └── 迁移学习 / 微调 ✧
└── 神经网络架构(Neural Network Architectures)
├── 感知机 & 多层全连接
├── 卷积网络(CNN)
├── 循环 / 时序网络(RNN, LSTM, GRU)
├── Transformer 系列
├── 图神经网络(GNN)
└── ……
└─┬─ **骨干网络 Backbones ✧** ←※ 目标概念
│ (负责特征抽取的主干)
│
├── 图像领域
│ ├── VGG / ResNet / DenseNet
│ ├── EfficientNet / ConvNeXt
│ └── Swin / ViT 等视觉 Transformer
│
├── 语音与音频
│ ├── CNN14 / HTS-AT
│ └── CRNN / SED-CRNN
│
├── 自然语言处理
│ ├── BERT / RoBERTa
│ └── GPT / LLaMA / T5
│
├── 多模态
│ ├── CLIP-ViT
│ └── SAM-ViT / BEiT-3
│
└── 自定义派生
└── 任务-specific Head(分类、检测、生成…)
```
## 如何阅读这棵树
1. **定位大类**:Backbone 属于 _深度学习_ → _神经网络架构_ 这一支。
2. **功能角色**:它是“抽特征的主干”,通常与上层的 _迁移学习 / 预训练-微调_ 范式配合。
3. **跨领域扩展**:图像、音频、文本、多模态各自都有常见的 backbone 实现。
4. **向下衍生**:在 backbone 之上再挂“任务专属的小脑袋(head)”即可形成完整模型。
> ✧ 星号位置表示:
> • **自监督 / 预训练** 是生成高质量 backbone 的主流手段;
> • **迁移学习** 则是把通用 backbone 迁到特定任务/数据集时常用的套路。