Mamba 引起人们注意的原因
Mamba 的历史依赖


- 2020 年的 Long Range Arena 上,Transformers 在长序列的表现上不尽如人意,主要原因是次方级别的自注意力复杂度。各种 Transformers 很难突破经典的 Transformer,Transformers 在长序列遇到了瓶颈。


- 而更早时候的 2019 年 Legendre Memory Units ,一种新颖的记忆单元,用于循环神经网络,可以使用相对较少的资源在长时间窗口内动态地维护信息。LMU是通过解决耦合的普通微分方程(ODEs)来数学推导的,其连续时间历史通过勒让德多项式直到度数d - 1线性映射到滑动时间窗口上以正交化。LMU的反向传播优于同等大小的LSTM在混沌时间序列预测任务上,在记忆容量方面提升了两个数量级,并显著降低了训练和推理时间。LMU可以有效处理跨越100,000个时间步长的时间依赖性,收敛迅速,并且使用较少的内部状态变量来学习跨越长时间窗口的复杂函数,超过了排列顺序MNIST上RNN的最新性能。这些结果是由于网络倾向于独立于步长学习尺度不变特征。通过ODE求解器的反向传播允许每个层自适应其内部时间步长,从而使网络能够学习与任务相关的时间尺度。


- 2020 年 HiPPO 框架在上述 LMU 的基础上泛化了诸如GRU等循环神经网络的普遍门控机制。这个正式的框架产生了一种新的内存更新机制(HiPPO-LegS),通过时间缩放以记住所有历史,避免了对时间尺度的先验假设。HiPPO-LegS享受时间尺度鲁棒性、快速更新和有界梯度的理论优势。通过将内存动态性纳入循环神经网络,HiPPO RNNs可以经验性地捕获复杂的时间依赖关系。在基准的排列MNIST数据集上,HiPPO-LegS实现了98.3%的新的最优准确率。最后,在一个测试对分布不均匀的时间尺度和缺失数据的鲁棒性的新颖轨迹分类任务上,HiPPO-LegS的准确率比RNN和神经ODE基线提高了25-40%。

