## **2. VC 维(Vapnik-Chervonenkis Dimension)**
VC 维(**Vapnik-Chervonenkis 维数**)是一种**衡量假设类复杂度**的数学工具,表示某个假设空间 $H$ 在最坏情况下能够**完全分开**(shatter)的点的最大数量。
### **核心概念**
- **Shattering(打散)**:如果一个假设类 $H$ 能够对某个数据集 $S$ 的所有可能标注方式都正确分类,则称 $H$ **shatter** 了 $S$。
- **VC 维**:能被假设类 $H$ 打散的**最多样本数**。
### **VC 维的计算**
假设 $H$ 是某个模型的假设空间:
- 如果存在某个样本集 $S$(大小为 $d$),使得 $H$ 能对其进行**所有可能的二分类方式**(即 $2^d$ 种标注),则 VC 维至少是 $d$。
- 如果对于所有大小 $d+1$ 的数据集,都存在至少一种标注无法被 $H$ 实现,则 VC 维为 $d$。
### **VC 维的例子**
1. **感知机(线性分类器)**
- 在二维空间中,感知机可以完全正确地分类任意三个点(无论如何标注),但无法对任意四个点的所有可能标注都做到完美分类。因此,VC 维为 **3**。
2. **k 维线性分类器**
- 在 k 维空间中的线性分类器,其 VC 维为 **k+1**。
3. **单层神经网络(感知机)**
- 二维感知机的 VC 维 = 3
- 三维感知机的 VC 维 = 4
- 以此类推,n 维感知机的 VC 维 = n + 1
4. **决策树**
- 叶子节点数为 $T$ 的决策树,其 VC 维通常是 $O(T)$。