AlexNet - 𓀚 转了码的刘公子

#comment 数据 + 算法 + 算力（GPU）的第一次金风玉露一相逢 > AlexNet = 多头注意力的“局部、静态、权重共享版”，靠分层扩大感受野把局部纹理卷成全局语义；它用 ReLU、数据增强、Dropout 和当年的 GPU 工程化，把“深度学习能打败手工特征”这件事坐实了。 - **开创了“卷积神经网络时代”**： AlexNet之后，大量[[CNN|卷积神经网络]]模型不断涌现，例如VGG、ResNet、GoogLeNet等。它们都是在AlexNet基础上的持续改进和创新，但开创性的一步就是AlexNet完成的。 - **推动了GPU在深度学习中的应用**： AlexNet率先使用GPU（显卡）加速神经网络训练，证明确实能极大提高训练速度。这种“*利用GPU进行深度学习*”的做法也被广泛推广，带动了NVIDIA等GPU厂商的繁荣。简而言之，AlexNet之所以意义重大，是因为它用一次成功的实践，让所有人看到了深度学习巨大的潜力，真正开启了人工智能领域过去十几年轰轰烈烈的发展浪潮。这是一个****“****把老派** **CNN****（****AlexNet****）用你熟悉的** **Transformer** **语言重讲****”****的经典『迁移类比』问题变体****。用 Transformer 思维速懂 AlexNet 核心观念：AlexNet 是“局部感知 + 权重共享 + 分层抽象”的卷积网络。不是靠全局注意力，而是用固定大小的滑动窗口卷积核在整张图上共享同一套权重，逐层把局部模式（边缘、纹理）汇聚成高层语义（物体）。 AlexNet 做了哪些“当年很超前”的工程招数 1. 深层卷积堆叠：5 个卷积层 + 3 个全连接层（总 8 层）。 2. ReLU 取代 sigmoid/tanh → 大幅提速、缓解梯度问题。 3. 重数据增强：随机裁剪、水平翻转、PCA 光照扰动。 4. Dropout：全连接处丢弃神经元，抗过拟合。 5. 重叠式池化（overlapping pooling）：比非重叠略更稳。 6. 双 GPU 并行训练（2012 年就这么玩）：把特征通道一分为二，跨卡有限连接。 7. SGD+动量+权重衰减：经典配方，至今仍好使。概念对照表（Transformer → AlexNet/CNN） • Token 序列 → 像素网格（C×H×W） ViT 把图像切成 patch 当 token；AlexNet用卷积核在网格上滑动，相当于“局部窗口的固定权重投影”。 • Attention Head → 卷积核（Filter）一个 head 会专注某种关系；一个卷积核会“扫描”整图，遇到它喜欢的局部模式就强响应，输出一张特征图（channel）。 • 注意力（动态权重，随内容而变）→ 卷积（静态权重，位置共享） Attention 的权重因输入而变；卷积核的权重与位置无关，靠平移等变性抓模式。 • 全局感受野（单层就全局）→ 逐层扩大的感受野 Transformer 一层就能看全局；CNN 需要多层/步长/池化把感受野从局部滚雪球到全局。 AlexNet 第一层用 11×11, stride 4 粗暴放大感受野，后面再用 5×5、3×3 细化。 • Positional Encoding → 先验的空间结构 CNN 天生知道“谁和谁是邻居”，通常不再显式加位置编码；这就是 CNN 的强归纳偏置。 • FFN/MLP → 1×1 卷积 / 全连接层 AlexNet 末端是三层全连接（两层带 Dropout），对应“混合通道/做非线性变换”的角色。 • LayerNorm + GELU → ReLU +（早期的）LRN AlexNet 用 ReLU（训练快、梯度不饱和），提出过 LRN（跨通道局部归一化，已被 BatchNorm 时代淘汰）。 • 残差/跳连 → 无（那是 ResNet 的时代）一张“心智图” 把每个卷积核想成“可移动的小探针（head）”，在整张图上扫描；哪里像它的模板，它就打一个高分（特征图发亮）。多层之后：边缘→纹理→部件→物体。最后的全连接层做“类别判别”（softmax）。站在 Transformer 的视角怎么理解差异 • 归纳偏置：CNN 强（局部、平移等变），数据效率高；Transformer 弱（更灵活）但需更多数据/正则。 • 上下文范围：Attention 天生全局；CNN 要靠深度/步长/池化渐近全局。 • 参数共享方式：Attention 的权重随内容动态；卷积的权重位置共享且静态。 • 可解释性：卷积核像一类“可视化模板”；注意力可视化的是谁看谁的关系。如果你要“用 Transformer 的习惯”快速搭 AlexNet 风格网络 • 选小卷积核多堆叠（3×3）替代大核（AlexNet 的 11×11 是那个时代的权衡；现代更偏 3×3）。 • 用 BatchNorm + ReLU（或 SiLU）替代 LRN。 • 下采样靠 stride 或 max-pool（≈ ViT 的 patch merge）。 • 末端加全连接/1×1 卷积作为“通道维 MLP”。 • 仍然用 SGD(+动量)+WD 或 AdamW，配合数据增强（Crop/Flip/ColorJitter/MixUp/CutMix）。