论文解读2-Nested Learning:The Illusion of Deep Learning Architectures

#vvc 2025-11-25

摘要

在过去的几十年里，开发更强大的神经架构并同时设计能有效训练它们的优化算法，一直是提升机器学习模型能力的核心研究重点。
尽管近期取得了进展，特别是在开发语言模型（LMs）方面，但关于这些模型如何能够持续学习、记忆、自我改进并找到“有效解决方案”，仍然存在基本的挑战和未解之谜。在本文中，我们提出了一种名为嵌套学习（Nested Learning, NL）的新学习范式。该范式将一个模型连贯地表示为一组嵌套的、多层次的和/或并行的优化问题，每个问题都有其独立的“上下文流”。

NL揭示，现有的深度学习方法通过压缩其自身的上下文流来从数据中学习，并解释了大型模型中情境学习（In-Context Learning）如何涌现。NL指明了一条通过增加“层次”而非仅仅是层数，来设计更具表达能力的学习算法的路径，从而可能带来更高阶的情境学习能力。

除了其在神经科学上的合理性和数学上的白盒特性之外，我们通过提出三项核心贡献来论证其重要性：

1.*深度优化器(Deep Optimizers)*：基于NL,我们表明，著名的基于梯度的优化器（例如Adam、带动量的SGD等）实际上是旨在通过梯度下降压缩梯度的联想记忆模块。基于这一见解，我们提出了一组具有更深记忆和/或更强大学习规则的、更具表达力的优化器。

2.*自修改泰坦(Self-Modifying Titans)*：利用NL关于学习算法的见解，我们提出了一种新颖的序列模型，它通过学习自身的更新算法来学习如何修改自身。

3.*连续记忆系统(Continuum Memory System, CMS)*：我们提出了一个记忆系统的新表述，概括了传统的“长期/短期记忆”观点。将我们的自修改序列模型与连续记忆系统相结合，我们提出了一个名为 HOPE 的学习模块，在语言建模、持续学习和长上下文推理任务中显示出有希望的结果。

第一章：引言深度学习的“幻觉”与持续学习的挑战

业界普遍认为，模型越大、参数越多，性能就越强。然而，这种基于堆叠更多层或参数的方法存在根本性局限，导致大语言模型（LLMs）在预训练结束后，其长期记忆基本固定,无法持续学习新知识而不遗忘旧知识，即遭遇灾难性遗忘问题。这类似于人类医学中的“顺行性遗忘症”。

传统上，为了缓解这个问题，研究社区往往将模型架构设计和优化算法设计视为两个独立的方向。嵌套学习（NL）范式旨在彻底打破这种割裂的视角。它提出一个颠覆性观点：传统的深度学习架构（层的堆叠）只是其内部更深层、更本质的嵌套优化结构的一个“扁平化”视角或“幻觉”。模型真正的表达能力和学习能力，源于其内部嵌套的优化层次的数量（即“优化的深度”），而不仅仅是物理上的层数。

NL的灵感来源于人脑的多时间尺度学习与记忆巩固机制。人脑通过不同频率的脑波协调活动，快速更新的神经元处理即时信息，而慢速更新的神经元整合长期知识。NL试图在机器学习模型中复制这种多时间尺度更新的统一、可复用结构。

第二章：嵌套学习（NL）范式详解

2.1 核心定义：作为联想记忆的优化

NL范式从一个基本定义出发：联想记忆。给定一组键（K）和值（V），联想记忆是一个算子 M: K → V 。NL的关键洞察在于，机器学习模型的训练过程本身就可以被视为一个构建联想记忆的过程。例如，在训练一个单层MLP时，通过梯度下降最小化损失函数，等价于学习一个将输入数据（键）映射到其对应梯度（值）的联想记忆。

2.2 从扁平到嵌套：重新审视深度学习

当使用更复杂的组件，如带动量的梯度下降时，这个过程就显现出嵌套结构：

外层优化问题：缓慢地更新模型权重参数（W）。

内层优化问题：动量项本身作为一个快速的优化问题，其目标是学习如何压缩历史梯度信息，为外层的权重更新提供指导。

类似地，在NL视角下，注意力机制可以被视为一个快速的在线优化过程，而前馈网络（FFN）的参数更新则是一个缓慢的过程。因此，著名的Adam优化器可以被看作一个包含多个嵌套层次的优化问题（如一阶动量、二阶动量等），每个层次都是一个在不同时间尺度上运作的联想记忆模块。

NL引入 “更新频率（Update Frequency）” 作为核心组织原则。模型中的每个组件（无论是注意力状态、FFN权重还是优化器内部状态）都以自身特定的频率进行更新，从而形成一个从极快（如每一步都更新）到极慢（如仅在预训练时更新）的多层次嵌套优化系统。这打破了模型架构与优化算法之间的界限，将它们统一在一个框架下。

3. NL框架下的三大核心贡献

3.1 深度优化器（Deep Optimizers）

理念：既然传统优化器（如Adam）本质上是简单的（通常是线性的）联想记忆模块，那么就可以用更强大、更深的模型（如小型MLP）来替代它们内部的记忆机制。

实现：例如，“深度动量梯度下降”（DMGD）使用神经网络来学习更复杂的梯度历史模式，取代简单的指数移动平均
。这使得优化器具有更强的表达能力和适应性，可能带来更快的收敛和更好的解。

3.2 自修改泰坦（Self-Modifying Titans）

理念：将NL的见解应用于序列模型（在Titans架构基础上），使模型不仅学习任务数据，还学习如何修改自身的学习规则（即更新算法）。

实现：模型在推理过程中能够根据接受到的信息和产生的误差信号，动态地调整自身的参数更新规则（如注意力中的键、值、查询投影）
。这实现了某种程度的“元认知”或“自指”能力，为真正的在线学习和自我改进奠定了基础。

3.3 连续记忆系统（Continuum Memory System, CMS）与HOPE架构

理念：彻底告别“短期记忆-长期记忆”的二元划分，将记忆视为一个连续的频谱。

实现：CMS由一系列多层感知机（MLP）块链接而成，每个块以不同的、特定的频率进行更新。高频块（更新快）处理近期上下文，如同工作记忆；低频块（更新慢）存储稳定、抽象的知识，如同世界观。中间频率的块则形成平滑的过渡。这模拟了人脑中海马体（快速学习）到新皮层（慢速巩固）的记忆巩固过程。

HOPE架构：这是NL范式的实例化，将自修改的序列模型与CMS深度融合。HOPE形成了一个具有多时间尺度记忆和自修改能力的统一学习模块。其架构主干与传统Transformer的关键区别在于，HOPE为不同更新频率配备了专门的组件，形成了动态的、多层次的学习系统，而非静态的前馈网络。

4. 实验验证

研究团队在多个基准任务上对比了HOPE与Transformer++、RetNet、Titans等强基线模型。

语言建模（在WikiText-103等数据集上，评估指标为困惑度Perplexity，越低越好）：在1.3B参数规模下，HOPE取得了最低的困惑度（15.11），优于对比模型。

常识推理（在PIQA、HellaSwag、ARC等8项任务上，评估指标为准确率）：在1.3B参数规模下，HOPE的平均准确率达到57.23%，超越了同规模的Titans（56.82%）等模型。

长上下文处理：在“大海捞针”（Needle-in-a-Haystack）任务中，HOPE表现出卓越的记忆管理能力，能够在极长上下文（如百万级token）中有效定位信息，性能显著优于Mamba2和TTT等模型。

持续学习：在顺序学习多个任务后，HOPE展现出极低的遗忘率（如3.8%），远低于基线模型，且无需依赖经验回放（experience replay）或复杂的正则化技术，首次在语言模型上实现了近乎“无代价”的持续学习。

5. 结论与展望

嵌套学习（NL）提供了一个统一的、神经科学合理的、数学上白盒的框架，来重新理解深度学习。它挑战了“堆叠层数即一切”的范式，指出通过增加“嵌套层次”（优化深度）是提升模型能力的一个全新维度。

这项工作为解决AI的静态性和灾难性遗忘问题提供了强有力的理论基础和可行的技术路径。未来，基于NL理念的模型有望在机器人、自动驾驶、个性化AI助手等需要终身学习的领域产生深远影响。未来的研究方向包括探索更深层次的嵌套结构、优化不同时间尺度组件间的交互，以及将NL应用于更广泛的领域（如计算机视觉、强化学习）

6. 核心概念

“幻觉” (The Illusion)

解析：这是论文最引人注目的观点。它并非否认深度神经网络的有效性，而是对其成功的本质提出了一个全新的解释。传统观点认为，能力来源于“层”的堆叠（空间维度）。NL则认为，真正的能力来源于内部多层级、多时间尺度的“优化过程”的嵌套（时间/频率维度）。我们看到的“层”只是这些内部优化过程的一个外部表现或“扁平化投影”。这就好比，我们看到的物体颜色（表象）其实是由其原子分子结构（本质）决定的。NL试图揭示的是深度学习的“原子结构”——嵌套优化。

联想记忆 (Associative Memory) 与压缩上下文流

解析：这是NL统一不同组件的理论基石。NL将机器学习中的许多核心操作都归结为“联想记忆”。训练是学习从数据到梯度的映射；注意力是学习从查询（Query）到基于键值对（Key-Value）的上下文映射；优化器（如Adam的动量项）是学习从历史梯度到当前更新方向的映射。所有这些过程的目标都可以被看作是“压缩上下文流”——即从当前所处理的信息序列（上下文）中，提取出最精华、最相关的模式或规律，并存储下来（记忆化）。这为理解模型内部工作提供了统一的视角。

更新频率 (Update Frequency)

解析：这是NL框架中组织不同组件的核心维度。它借鉴了人脑和复杂动力系统的原理。通过为模型的不同部分设置不同的“时钟速度”，系统可以同时处理即时反应和长期规划。高频组件（如注意力）像“敏捷小队”，快速响应环境变化；低频组件（如FFN中的核心知识）像“战略指挥部”，缓慢而稳固地制定长期方略。这种分工协作是解决灾难性遗忘的关键：新信息由高频组件快速捕获，然后通过一个缓慢的“蒸馏”过程逐渐整合到低频组件中，避免了对长期记忆的粗暴覆盖。

深度优化器 (Deep Optimizers)

解析：这是NL范式最直接的技术应用之一。它将优化器从一个固定的、人为设计的算法（如Adam的更新公式），转变为一个可学习的、自适应的组件。用小型神经网络（如MLP）作为优化器的“大脑”，使其能够识别复杂的梯度模式，而不仅仅是做简单的加权平均。这相当于给模型配备了一个更聪明的“学习策略教练”，这个教练本身也能从经验中学习如何更好地指导模型（主网络）参数更新。

连续记忆系统 (CMS) 与二元记忆的终结

解析：传统的“短期记忆-长期记忆”二分法过于简化，在AI模型中体现为注意力（短期）和FFN参数（长期）的割裂。CMS的提出是一个重要的概念进步，它承认存在一个记忆的连续光谱。例如，介于瞬时和永恒之间，我们可能有“本周项目相关的记忆”、“本季度领域知识记忆”等。CMS通过一组具有不同更新频率的MLP块来物理实现这个光谱，使得记忆的巩固过程更加平滑、精细，更贴近生物大脑的运作方式。

HOPE：NL范式的集成验证

解析：HOPE架构的意义在于它是一个概念验证（Proof of Concept）。它表明NL的理论思想可以转化为一个实际可运行、且性能优异的模型。HOPE的成功，特别是其在持续学习上的卓越表现（低遗忘率且无需经验回放），强有力地支持了论文的核心论点：通过显式地设计多时间尺度的嵌套优化结构，可以解决传统深度学习架构的根本性缺陷。它为一个新的模型设计方向树立了标杆。

链接

https://abehrouz.github.io/files/NL.pdf

摘要

第一章：引言 深度学习的“幻觉”与持续学习的挑战