abstract
Transformer 模型已在众多应用中表现出高精度,但复杂性高且缺乏顺序处理能力,这使得它们不适合设备资源严重受限的边缘的许多流应用程序。因此,许多研究人员提出将 Transformer 模型重新表述为 RNN 模块,用显式状态修改自注意力计算。然而,这些方法通常会导致性能显着下降。最终目标是开发一种具有以下属性的模型:并行训练、流式传输和低成本推理以及最先进的 (SOTA) 性能。在本文中,我们提出了实现这一目标的新方向。我们展示了对完全顺序循环模型的架构修改如何帮助将其性能推向 Transformer 模型,同时保留其顺序处理能力。具体来说,受到勒让德记忆单元(LMU)最近在序列学习任务中取得的成功的启发,我们提出了 LMUFormer,它通过卷积补丁嵌入和卷积通道混合器增强了 LMU。此外,我们提出了该架构的尖峰版本,它引入了补丁嵌入和通道混合器模块中的状态优势,同时降低了计算复杂性。我们在多个序列数据集上评估了我们的架构。特别值得注意的是我们在 Speech Commands V2 数据集(35 个类别)上的表现。与 ANN 领域内基于 SOTA 变压器的模型相比,我们的 LMUFormer 表现出可比的性能,同时参数显着减少 53 倍,FLOP 大幅减少 65 倍。此外,当以现有的低复杂度 SNN 变体为基准时,我们的模型建立了一个新的 SOTA,准确率为 96.12%。此外,由于我们的模型对实时数据处理的熟练程度,我们能够将序列长度减少 32.03%,同时性能下降却微不足道。
introduction
在文章的“Preliminaries”部分,作者首先介绍了勒让德记忆单元(LMU)和并行训练的概念。勒让德记忆单元(LMU)是一种高效捕获和表示时序数据中时间依赖性的记忆单元,它的设计基于勒让德多项式的数学属性。LMU 基于两个状态空间矩阵A和 B来近似连续时间的线性传递函数,该系统被映射到离散时间以便于计算。
接着,文章转向尖峰神经网络(SNNs)的介绍。尖峰神经网络作为第三代神经网络模型,因其潜在的高能效性而受到关注。与传统的人工神经网络(ANNs)相比,SNNs 通过使用二进制“尖峰”来处理和传递信息,模仿生物神经元的行为。文章介绍了如何将时序多位输入数据(如音频或文本)转换为尖峰的编码方案,特别是利用直接编码和泄漏整合和火(Leaky Integrate-and-Fire,LIF)神经元模型。