这是用户在 2024-6-6 13:41 为 https://zhuanlan.zhihu.com/p/701549609 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

对状态空间模型(SSM)以及超越 Transformer 架构的看法(偏见)

28 人赞同了该文章
发布于 2024-06-04 14:20・IP 属地中国香港

Disclaimer:本文充满了个人偏见,事实错误,异想天开,不完整的信息。敬请指教。

SSM 模型的简史

  1. 好难算,简化再简化
    1. LSSL:好优雅一结构,但是效果不行
    2. HiPPO:一通魔法效果好了,但是好难算
    3. S4:把 A 用结构化矩阵简化一下
    4. S4D:把 A 用对角矩阵再简化一下,怎么还能算?
    5. DLR:变成 Linear RNN 再看看,怎么还能算?
    6. LRU:变成 Linear RNN 再看看,怎么还能算?x2
  2. 为语言建模而不懈加 gate
    1. GSS: 加点 gate
    2. S5:变成 SISO 再加 gate
    3. BiGS:再加点 gate
    4. Liquid SSM: 再加点 gate
    5. Hyena:变成卷积加 gate
    6. Mamba / S6:给 A 加上 gate
  3. Mamba-2 / SSD:gate 和简化,虽然很像 GLA

HiPPO 的出发点非常好,关联记忆是序列建模的核心,但是 HiPPO 的推理太繁重的同时也非常静态,只是把所有线性函数都分解为同一组函数正交基的线性组合。现在的对角初始化已经完全不是 HiPPO 的做法,但是也能跑得通,只能说明 HiPPO 只覆盖了一小部分可能的空间。这样看来如果用来分解线性函数,为什么不能让正交函数基也是可学习的呢?

回看 State Space Model 这套体系,其价值可能在于这几个方面:

  • SSM 没有非线性,所以能够很好地并行(但其表达力也有一些折损)
  • SSM是 MIMO(因为 HiPPO 是一维的),所以:
    • 必须每个维度都维护一套SSM矩阵,误打误撞构建了更大的记忆容量
    • 需要用MLP在channel之间交互,误打误撞构建了 Metaformer 的结构

传统的SSM 的理论都在讨论 LTI 的模型,因为性质最好,如果 LTV 其实就失去 SSM 的很多良好性质了。RNN 的传统理论,比如遗忘门,输入门的角度,甚至都能更好地解释其记忆效果。关联记忆的角度远比 SSM 的理论优雅而且天然多维。本质上 SSM 理论的能力已经用光了。

Beyond Transformer

What's wrong?

在去年超越 Transformer 架构蓬勃发展的过程中,人们过于注重系统层面算子跑得有多块,而忽略了理论层面如何科学地验证其记忆容量。HazyResearch 的过往做法是简单做个合成实验就宣告 XYZ 模型战胜了 Transformer,但本质上这是极其不负责任的。MQAR 是这方面非常重要的工作,但推出得太晚,这种工作也太少了,而且 MQAR 可能也是高度 artificial 而并没有足够接近真实场景的,即使某个模型在 MQAR 上面表现得好,甚至在 Pile 的 PPL 上表现得好,也无法断言这个架构就战胜了 Transformer.

第二点是没有新东西和质变。所有架构都在报告自己跑得多快多省显存,并在少数几个无脑 benchmark 上高度优化,但是一在其他 benchmark 上面测试就露馅了。没有新的东西,仅仅是推出一个几个 benchmark 上面能匹配 Transformer ,或者跑得更快的架构,是没有能力让其他人换掉 Transformer 的。这也阻碍了架构的迭代。量级不足的量变不足以成为颠覆旧范式的理由,因为旧范式通过庞大的社区得到了大量的优化;只有质变或者极大的量变,也就是说要么展现一些全新的能力,或者取得了 1000% 左右的benchmark效果提升,才能颠覆 Transformer. 我很看好 State Tuning

What's next?

我个人的偏好是通过关联记忆的角度审视 Transformer. Transformer 对序列没有任何的压缩,并直接进行检索,也就是完全规避了对记忆的建模。这样确实能够优秀地完成各种本质上就是抄书的 NLP 任务,但是也失去了搜索和优化的空间,只能使用思维链和各种矫饰的 Adaptive Computation 来显式地构建 scratchpad.

线性注意力对序列进行了高度有损的压缩, 导致记忆容量虽然设定得很大,但是有效记忆容量却不足。为什么压缩是有损的?因为监督信号的不足。线性注意力本质上是通过token向量的外积更新隐状态,这其实就是略加粉饰的 Hopfield Network,而 Hopfield network 的容量是高度有限的(0.14N,N 是加加投影可能稍微扩容一点点)。为什么?外积对应的优化过程是很弱的。你只是一直往里面堆新信息,没有一种动力促使你去优化隐状态的结构,用脚趾头想想这样肯定是不行的。把 Update rule 加一些漂亮的粉饰,用什么 delta rule, tyler rule,也并不改变监督信号羸弱的实质。

加 Gate 本质上是一种头痛医头的做法:因为记不住很多东西,所以要去遗忘已有的东西去腾空间。这是粗暴而愚蠢的。你用反向传播时怎么不加 Gate,怎么不遗忘掉一些训练样本吗?

是的,反向传播其实能够构建非常大的记忆容量,但问题是我们在 Forward Pass 时没有办法进行反向传播,时间不允许,机理上也很困难。我认为 Contrastive Divergence 这个亘古时代的造物有机会能用在这个方面,并呼吁大家从关联记忆的角度思考如何打败 Transformer.

发布于 2024-06-04 14:20・IP 属地中国香港
欢迎参与讨论

4 条评论
默认
最新
文开月

完全同意反向传播能构建大得多的容量

06-04 · IP 属地美国
Doraemonzzz

linear attention没法翻书,这一点通过加容量也很难解决吧

13 小时前 · IP 属地上海
Shom
作者
[doge]mlp不能翻书,为什么能overfit训练集[doge]一切都是较弱监督信号的问题,这可能跟先验也有关[思考]
13 小时前 · IP 属地北京
Doraemonzzz

[调皮]老哥看看私信

13 小时前 · IP 属地上海
想来知乎工作?请发送邮件到 jobs@zhihu.com