33年前后的深度神经网络：从LeCun论文到今天的启示

karpathy.github.io 研究入门影响力: 5/10

Karpathy复现了1989年LeCun手写邮政编码识别论文，揭示深度学习进步的本质。

核心要点

2022年，Andrej Karpathy做了一件有趣的事：他用PyTorch完整复现了Yann LeCun 1989年的经典论文——《应用反向传播识别手写邮政编码》。这篇论文被广泛认为是神经网络端到端反向传播在真实世界应用的首次成功案例。

因为这组论文的奇特之处：除了数据集极小（7291张16×16灰度图）和模型极小（约1000个神经元）之外，它读起来完全像一篇现代深度学习论文。数据集描述、网络架构、损失函数、优化方法、训练集/测试集实验报告——一个都不缺。

换句话说，33年前的研究框架和今天完全一致。

Karpathy在karpathy/lecun1989-repro仓库中完成了复现。原始网络是用Lisp在BN/Lush中实现的，而如今用PyTorch不到几百行代码就能重现。

最有趣的发现是：用同样的架构和现代训练技巧（更好的优化器、更多的epoch），模型可以在测试集上达到接近零错误的性能。

这个实验揭示了一个重要事实：深度学习领域在过去30多年的进步，很大程度上不是算法层面的颠覆性创新，而是算力、数据和工程实践的线性提升。反向传播的原理从未改变，改变的是我们有多少数据和算力去运用它。

这个视角对今天的AI从业者很有启发：与其追逐下一个"革命性架构"，不如扎实理解现有技术的本质。

原文地址: Deep Neural Nets: 33 years ago and 33 years from now