paper:LMUFORMER

2023-11-29

paper

abstract

Transformer 模型已在众多应用中表现出高精度，但复杂性高且缺乏顺序处理能力，这使得它们不适合设备资源严重受限的边缘的许多流应用程序。因此，许多研究人员提出将 Transformer 模型重新表述为 RNN 模块，用显式状态修改自注意力计算。然而，这些方法通常会导致性能显着下降。最终目标是开发一种具有以下属性的模型：并行训练、流式传输和低成本推理以及最先进的 (SOTA) 性能。在本文中，我们提出了实现这一目标的新方向。我们展示了对完全顺序循环模型的架构修改如何帮助将其性能推向 Transformer 模型，同时保留其顺序处理能力。具体来说，受到勒让德记忆单元（LMU）最近在序列学习任务中取得的成功的启发，我们提出了 LMUFormer，它通过卷积补丁嵌入和卷积通道混合器增强了 LMU。此外，我们提出了该架构的尖峰版本，它引入了补丁嵌入和通道混合器模块中的状态优势，同时降低了计算复杂性。我们在多个序列数据集上评估了我们的架构。特别值得注意的是我们在 Speech Commands V2 数据集（35 个类别）上的表现。与 ANN 领域内基于 SOTA 变压器的模型相比，我们的 LMUFormer 表现出可比的性能，同时参数显着减少 53 倍，FLOP 大幅减少 65 倍。此外，当以现有的低复杂度 SNN 变体为基准时，我们的模型建立了一个新的 SOTA，准确率为 96.12%。此外，由于我们的模型对实时数据处理的熟练程度，我们能够将序列长度减少 32.03%，同时性能下降却微不足道。

introduction

在文章的“Preliminaries”部分，作者首先介绍了勒让德记忆单元（LMU）和并行训练的概念。勒让德记忆单元（LMU）是一种高效捕获和表示时序数据中时间依赖性的记忆单元，它的设计基于勒让德多项式的数学属性。LMU 基于两个状态空间矩阵A和 B来近似连续时间的线性传递函数，该系统被映射到离散时间以便于计算。

接着，文章转向尖峰神经网络（SNNs）的介绍。尖峰神经网络作为第三代神经网络模型，因其潜在的高能效性而受到关注。与传统的人工神经网络（ANNs）相比，SNNs 通过使用二进制“尖峰”来处理和传递信息，模仿生物神经元的行为。文章介绍了如何将时序多位输入数据（如音频或文本）转换为尖峰的编码方案，特别是利用直接编码和泄漏整合和火（Leaky Integrate-and-Fire，LIF）神经元模型。