论文提出的 TSLANet 的结构。将输入时间序列分割成 patches,并添加位置嵌入。接下来,输出嵌入通过 TSLANet 层,其中每层由两个主要组件组成。
在这里插入图片描述

第一个是自适应频谱块 ASB,它利用频域表示进行鲁棒特征提取,并采用自适应阈值来减轻噪声。第二个是交互式卷积块 ICB,它通过卷积操作捕获复杂的时间模式。

2.1 Adaptive Spectral Block(ASB)
  1. FFT
    ​F = F [ S P E ] ∈ C C × L ′ F=\mathcal{F}[S_{PE}]\in C^{C×L^′}F=F[SPE​]∈CC×L′
    对时间序列的每个通道进行独立 FFT 变换,得到一个综合的频域表示 F,它封装了原始时间序列在所有通道上的频谱特征。
  2. 高频噪声的自适应去除
    高频分量通常代表偏离潜在趋势或信号的快速波动,使它们看起来更加随机且难以解释。因此,提出了一种自适应局部滤波器,允许模型根据数据集特征动态调整滤波水平,并去除这些高频噪声成分。在处理频谱可能随时间变化的非平稳数据时,这一点至关重要。该滤波器自适应地为每个特定的时间序列数据设置合适的频率阈值。
    首先计算 F 的功率谱,这有助于识别主导频率成分: P = ∣ F ∣ 2 P=|F|^2 P=∣F∣2
    通过一个可训练的阈值θ来实现这一点,该阈值根据数据的光谱特征进行调整。这个阈值θ被设置为一个可学习的参数
    ​F f i l t e r e d = F ⊙ ( P > θ ) F_{filtered}=F\odot (P>θ) Ffiltered​=F⊙(P>θ)
    其中功率谱高于阈值θ的频率被保留,而其他频率被过滤掉。阈值θ通过自适应选择频率阈值,ASB 根据每个特定的时间序列数据集定制其过滤阈值,从而提高了模型在处理各种数据场景时的整体有效性。
2.2 Interactive Convolution Block(ICB)

ICB 的设计包括具有不同核大小的并行卷积,以捕获局部特征和较远的依赖关系。具体来说,第一个卷积层的设计目的是用较小的核捕获数据中的细粒度、局部模式。相比之下,第二层旨在用更大的内核识别更广泛、更长距离的依赖关系。
​A 1 = ϕ ( C o n v 1 ( S ′ ) ) ⊙ C o n v 2 ( S ′ ) A_1=\phi (Conv 1 (S^′))\odot Conv 2 (S^′) A 1​=ϕ(Conv 1 (S′))⊙Conv 2 (S′)
​A 2 = ϕ ( C o n v 2 ( S ′ ) ) ⊙ C o n v 1 ( S ′ ) A_2=\phi (Conv 2 (S^′))\odot Conv 1 (S^′) A 2​=ϕ(Conv 2 (S′))⊙Conv 1 (S′)
​O I C B = C o n v 3 ( A 1 + A 2 ) O_{ICB}=Conv 3 (A_1+A_2) OICB​=Conv 3 (A 1​+A 2​)

2.3 Self-Supervised Pretraining

预训练的实现包括选择性屏蔽输入序列的 patch,然后训练 TSLANet 来准确地重建这些被屏蔽的片段。然后,被屏蔽的数据充当训练输入,迫使模型学习和推断数据中的底层模式和依赖关系。

实验

  • 注意到 Time-LLM 的优势,因为它依赖于大型 Llama-7 B 模型,这使得它能够捕获数据中的复杂模式和依赖关系。除了 Time-LLM 之外,TSLANet 在各种数据集上的表现始终优于基线模型。虽然 Time-LLM 提供稍好的性能,但其计算成本明显高于 TSLANet。
  • TSLANet 在大多数数据集中表现最好,总分为 87.54%。GPT 4 TS 模型紧随其后,总体平均为 86.72%,排名第二。它的高容量使它在检测异常方面很有效。值得注意的是,基于 Transformer 的模型通常在异常检测中表现出较低的效率。这可能是由于注意力机制只关注主要的正常点,从而忽略了罕见的异常点。考虑周期性的模型,如 TimesNet 和 FEDformer,表现良好,表明周期性分析在突出异常模式方面的价值。