# Summary # Cues # Notes 假设我们有一个超级迷你的 Transformer 模型: - `d_model = 2` (特征维度) - `num_layers = 1` (只有1层) 一个注意力层的权重矩阵大概是这样的: ```python # Q, K, V, O 四个权重矩阵 Q_weights = [[0.1, 0.2], # 2x2 = 4个参数 [0.3, 0.4]] K_weights = [[0.5, 0.6], # 2x2 = 4个参数 [0.7, 0.8]] V_weights = [[0.9, 1.0], # 2x2 = 4个参数 [1.1, 1.2]] O_weights = [[1.3, 1.4], # 2x2 = 4个参数 [1.5, 1.6]] # 总参数量 ≈ 4个矩阵 × 4个参数/矩阵 = 16个参数 ```