# Summary
# Cues
# Notes
假设我们有一个超级迷你的 Transformer 模型:
- `d_model = 2` (特征维度)
- `num_layers = 1` (只有1层)
一个注意力层的权重矩阵大概是这样的:
```python
# Q, K, V, O 四个权重矩阵
Q_weights = [[0.1, 0.2], # 2x2 = 4个参数
[0.3, 0.4]]
K_weights = [[0.5, 0.6], # 2x2 = 4个参数
[0.7, 0.8]]
V_weights = [[0.9, 1.0], # 2x2 = 4个参数
[1.1, 1.2]]
O_weights = [[1.3, 1.4], # 2x2 = 4个参数
[1.5, 1.6]]
# 总参数量 ≈ 4个矩阵 × 4个参数/矩阵 = 16个参数
```