paper:SPATIO-TEMPORAL APPROXIMATION

2023-12-21

paper

论文十问

模型之所以好：这个模型通过创新的时空近似方法，实现了无需额外训练即可将传统的人工神经网络（ANN）转换为尖峰神经网络（SNN）。这种转换保持了高效的能源利用和高精度，特别适合于在神经形态硬件上部署。
以前模型的不足：传统的ANN到SNN的转换方法通常依赖于额外的训练和微调，这不仅耗时而且可能导致性能下降。此外，这些方法在处理复杂的变换器模型时效果不佳，因为它们无法处理非因果、非线性的交互。
性能提升的关键点：论文提出的“时空近似”方法是关键，它通过空间近似处理非线性操作，并通过时间近似处理乘法操作。特别是，时间校正自注意层（Temporal-Corrective Self-Attention Layer, TCSA）的引入，通过估算-校正机制有效地近似了时序数据的乘法操作。
编程实现：论文详细描述了将ANN转换为SNN的具体步骤，包括使用通用组操作符（Universal Group Operators, UGOs）来空间近似非线性操作，以及使用TCSA来时间近似乘法操作。
源代码与论文匹配度：论文详细描述了转换过程和实现方法，但没有提供具体的源代码。通常，论文会提供足够的细节来复现其方法，但实际代码的实现可能需要依赖于论文中的描述。
关键的数学运算：关键的数学运算包括非线性函数的空间近似（如GELU），以及乘法操作的时间近似。
整个流程：整个转换流程包括两个主要部分：空间近似和时间近似。空间近似用于处理非线性函数，而时间近似主要用于处理乘法操作。
数据流动和变换：数据在神经网络中流动时，通过UGOs进行空间近似，通过TCSA进行时间近似。这些变换使得SNN能够以分散的时间步处理复杂的计算，而每个变换都有助于近似原始ANN模型的功能。
实现思路与抽象意义：作者的灵感可能来自于将复杂的ANN模型有效转换为SNN的需求，特别是在处理如Transformer这样的高级模型时。作者既关注具体的算法实现，也关注如何保持模型的抽象功能和高效性。
作者思考路线：作者首先识别了现有转换方法的局限性，然后通过创新的时空近似方法来解决这些问题，最终实现了一个高效且精确的ANN到SNN的转换框架。

Abstract

脉冲神经网络（SNNs）因其高能效和大规模推理潜力而受到关注。尽管从头开始训练SNNs代价高昂且性能有限，但将预训练的人工神经网络（ANNs）转换为SNNs是一种保持稳健性能而无需额外训练数据和资源的有吸引力的方法。

目前存在的问题：尽管现有的转换方法适用于卷积网络，新兴的Transformer模型引入了自注意力和测试时标准化等独特机制，导致当前SNNs难以实现的非因果非线性交互。

解决方法：该研究在时间和空间维度上近似这些操作，提出了针对Transformers的首个SNN转换管道。

Introduction

文章的第一部分介绍了大型变压器模型在高效推理方面的需求，并提出了尖峰神经网络（SNN）作为替代方案。由于尖峰神经元的不可微分性质，开发大规模SNN仍然面临挑战。现有方法需要从零开始训练，复杂且性能有限。

文章提出了一种无需训练的ANN到SNN的转换方法，该方法通过时空近似（STA）将ANN激活转换为时间尖峰序列，几乎保留了源模型的所有功能。

STA方法包括两个新颖的尖峰模块，用于在空间和时间上近似ANN计算。文章展示了如何将ViT-B/32模型转换为SNN，保留了原始模型的泛化性能，并在多个基准测试上实现了SNN的最高精度，同时允许在神经形态硬件上高能效部署。

将人工神经网络（ANN）转换为尖峰神经网络（SNN）是一项活跃的研究领域，目的是提高大规模任务的性能和训练效率。在这一过程中，ANN中的ReLU激活被替换为“软重置”IF神经元。

`ANN-TO-SNN CONVERSION`

主要方向包括无需训练的转换和依赖训练的转换:

无需训练的转换直接在预训练的ANN上进行，通过阈值平衡、参数校准和功能性尖峰发射来转换为SNN，并仅通过少量示例校准而无需重新训练或微调。然而，这些方法大多限于CNN，不适用于transformer。依赖训练的转换在转换前使ANN适应SNN，或在转换后微调SNN。尽管减少了转换损失和延迟，但它们依赖于给定的数据集，导致更高的训练成本和较弱的泛化能力，同时保持了类似CNN的结构限制。
我们的工作提出了一种无需训练的方法，将转换扩展到变压器之外。我们提出的模块作为注意力模块的尖峰等效物，在空间和时间上近似它们，从而保留了大规模预训练模型对复杂场景的适用性。

`TRANSFORMER AND SPIKE-BASED TRANSFORMER`

变压器通过自注意机制在空间维度上聚合特征，捕获全局依赖，在自然语言处理和计算机视觉任务上取得了显著成果。它们与CNN在空间特征交互和复杂非线性/规范化方面有所不同，这些都是现有SNN无法实现的。基于尖峰的变压器是最近提出的直接针对SNN训练的模型，它们在结构上与ANN变压器不同，需要从头开始训练。而本文的方法通过转换直接继承了预训练ANN变压器的能力，无需训练。

3. PRELIMINARIES AND PROBLEM ANALYSIS

3.1 `NEURONS FOR ANN & SNN`

3.2 `OPERATIONS IN TRANSFORMERS`

非线性运算符 变压器涉及更复杂的非线性函数，如GELU、平方根、指数等，这些无法通过IF神经元的分段线性动态直接实现，需要在空间域中进行近似。
可变标量/矩阵乘法 cnn中的推理是通过变量特征乘以恒定权重矩阵来进行的，而transformer包含更多的变量-变量乘法，如self-attention中的查询键乘积。此外，transformer中的LayerNorm在推理过程中动态计算归一化系数，防止像cnn中的BatchNorm那样集成到权重矩阵中(Rueckauer等人，2017)。因此，用脉冲神经元计算这些乘法是具有挑战性的，可能需要对时间进行修改。

4. `SPATIAL APPROXIMATION FOR NON-LINEARITY`

由于变压器的浮点非线性给SNN转换带来挑战，目标是开发尖峰神经元对应物来模拟其空间反应。所提出的近似器应该：

1）只由IF神经元组成；
2）对所有操作、模型和数据普遍适用。由于单个神经元的表示能力不足，因此采用神经元组来替代单个操作符。这些近似器通过与真实样例无关的合成浮点数据预先训练，因此可以普遍适用于所有场景。

4.1 `NEURON GROUPS FOR UNIVERSAL APPROXIMATION`

4.2 `INTEGRATION FOR HIGH-DIMENSIONAL OPERATIONS`

5.`TEMPORAL APPROXIMATION FOR MULTIPLICATIONS`

与传统网络不同，Transformer中的自注意力在可变特征矩阵之间执行乘法，而不是固定权重。在推理过程中，这些矩阵是由不完全时间序列编码的，因此直接计算它们的乘积是非因果的。天真地避免这可能会导致不均匀的脉冲输出和性能下降。为解决这个问题，本文提出时间纠正自注意力层(TCSA)，采用一种估计-纠正机制。该产品首先使用时间上可用的序列估计，然后由下一个实际脉冲输入校正。这将每个尖峰对乘积的贡献分布在所有时间步骤中，平滑输出以增强乘法的稳定性。

5.1 `TEMPORAL SPLIT FOR SPIKE-BASED MULTIPLICATION`

基于脉冲的乘法的时间分割

5.2 `ESTIMATION-CORRECTION FOR FIRING-RATE STABILITY`

如何通过估计-校正方法提高脉冲神经网络（SNN）中脉冲发放率的稳定性

6. 实验

转换实现：论文描述了一种将人工神经网络（ANN）转换为尖峰神经网络（SNN）的方法，使用空间和时间近似。这涉及使用通用组操作符（UGO）进行空间近似和时间修正自注意层（TCSA）进行时间近似。
零样本分类：转换后的模型在零样本分类任务上进行测试，使用的是CLIP的图像编码器。这评估了模型在未经明确训练的分类任务上的能力。
标准分类和消融研究：转换模型还在标准图像分类任务上进行测试。进行消融研究以分析转换过程中不同组件的影响。
能源估算：论文讨论了转换模型的能效，强调了SNN在计算成本和能源消耗方面的优势。

论文十问

Abstract

Introduction

Related Work

ANN-TO-SNN CONVERSION

TRANSFORMER AND SPIKE-BASED TRANSFORMER

3. PRELIMINARIES AND PROBLEM ANALYSIS

3.1 NEURONS FOR ANN & SNN

3.2 OPERATIONS IN TRANSFORMERS

4. SPATIAL APPROXIMATION FOR NON-LINEARITY

4.1 NEURON GROUPS FOR UNIVERSAL APPROXIMATION

4.2 INTEGRATION FOR HIGH-DIMENSIONAL OPERATIONS

5.TEMPORAL APPROXIMATION FOR MULTIPLICATIONS

5.1 TEMPORAL SPLIT FOR SPIKE-BASED MULTIPLICATION

5.2 ESTIMATION-CORRECTION FOR FIRING-RATE STABILITY