对状态空间模型（SSM）以及超越 Transformer 架构的看法（偏见）

Shom

stay hungry,stay foolish

28 人赞同了该文章

发布于 2024-06-04 14:20・IP 属地中国香港

Disclaimer：本文充满了个人偏见，事实错误，异想天开，不完整的信息。敬请指教。

SSM 模型的简史

好难算，简化再简化

LSSL：好优雅一结构，但是效果不行
HiPPO：一通魔法效果好了，但是好难算
S4：把 A 用结构化矩阵简化一下
S4D：把 A 用对角矩阵再简化一下，怎么还能算？
DLR：变成 Linear RNN 再看看，怎么还能算？
LRU：变成 Linear RNN 再看看，怎么还能算？x2

为语言建模而不懈加 gate

GSS: 加点 gate
S5：变成 SISO 再加 gate
BiGS：再加点 gate
Liquid SSM: 再加点 gate
Hyena：变成卷积加 gate
Mamba / S6：给 A 加上 gate

Mamba-2 / SSD：gate 和简化，虽然很像 GLA

HiPPO 的出发点非常好，关联记忆是序列建模的核心，但是 HiPPO 的推理太繁重的同时也非常静态，只是把所有线性函数都分解为同一组函数正交基的线性组合。现在的对角初始化已经完全不是 HiPPO 的做法，但是也能跑得通，只能说明 HiPPO 只覆盖了一小部分可能的空间。这样看来如果用来分解线性函数，为什么不能让正交函数基也是可学习的呢？

回看 State Space Model 这套体系，其价值可能在于这几个方面：

SSM 没有非线性，所以能够很好地并行（但其表达力也有一些折损）
SSM是 MIMO（因为 HiPPO 是一维的），所以：

必须每个维度都维护一套SSM矩阵，误打误撞构建了更大的记忆容量
需要用MLP在channel之间交互，误打误撞构建了 Metaformer 的结构

传统的SSM 的理论都在讨论 LTI 的模型，因为性质最好，如果 LTV 其实就失去 SSM 的很多良好性质了。RNN 的传统理论，比如遗忘门，输入门的角度，甚至都能更好地解释其记忆效果。关联记忆的角度远比 SSM 的理论优雅而且天然多维。本质上 SSM 理论的能力已经用光了。

Beyond Transformer

What's wrong?

在去年超越 Transformer 架构蓬勃发展的过程中，人们过于注重系统层面算子跑得有多块，而忽略了理论层面如何科学地验证其记忆容量。HazyResearch 的过往做法是简单做个合成实验就宣告 XYZ 模型战胜了 Transformer，但本质上这是极其不负责任的。MQAR 是这方面非常重要的工作，但推出得太晚，这种工作也太少了，而且 MQAR 可能也是高度 artificial 而并没有足够接近真实场景的，即使某个模型在 MQAR 上面表现得好，甚至在 Pile 的 PPL 上表现得好，也无法断言这个架构就战胜了 Transformer.

第二点是没有新东西和质变。所有架构都在报告自己跑得多快多省显存，并在少数几个无脑 benchmark 上高度优化，但是一在其他 benchmark 上面测试就露馅了。没有新的东西，仅仅是推出一个几个 benchmark 上面能匹配 Transformer ，或者跑得更快的架构，是没有能力让其他人换掉 Transformer 的。这也阻碍了架构的迭代。量级不足的量变不足以成为颠覆旧范式的理由，因为旧范式通过庞大的社区得到了大量的优化；只有质变或者极大的量变，也就是说要么展现一些全新的能力，或者取得了 1000% 左右的benchmark效果提升，才能颠覆 Transformer. 我很看好 State Tuning

What's next?

我个人的偏好是通过关联记忆的角度审视 Transformer. Transformer 对序列没有任何的压缩，并直接进行检索，也就是完全规避了对记忆的建模。这样确实能够优秀地完成各种本质上就是抄书的 NLP 任务，但是也失去了搜索和优化的空间，只能使用思维链和各种矫饰的 Adaptive Computation 来显式地构建 scratchpad.

线性注意力对序列进行了高度有损的压缩，导致记忆容量虽然设定得很大，但是有效记忆容量却不足。为什么压缩是有损的？因为监督信号的不足。线性注意力本质上是通过token向量的外积更新隐状态，这其实就是略加粉饰的 Hopfield Network，而 Hopfield network 的容量是高度有限的（0.14N，N 是加加投影可能稍微扩容一点点）。为什么？外积对应的优化过程是很弱的。你只是一直往里面堆新信息，没有一种动力促使你去优化隐状态的结构，用脚趾头想想这样肯定是不行的。把 Update rule 加一些漂亮的粉饰，用什么 delta rule, tyler rule，也并不改变监督信号羸弱的实质。

加 Gate 本质上是一种头痛医头的做法：因为记不住很多东西，所以要去遗忘已有的东西去腾空间。这是粗暴而愚蠢的。你用反向传播时怎么不加 Gate，怎么不遗忘掉一些训练样本吗？

是的，反向传播其实能够构建非常大的记忆容量，但问题是我们在 Forward Pass 时没有办法进行反向传播，时间不允许，机理上也很困难。我认为 Contrastive Divergence 这个亘古时代的造物有机会能用在这个方面，并呼吁大家从关联记忆的角度思考如何打败 Transformer.

发布于 2024-06-04 14:20・IP 属地中国香港