时序数据增强

  • 在时域上,使用的数据增强手段包括
    • jittering、scaling、time-shifts、neighborhood segments、permutation、masking
    • magnitude wraping, mean pooling。
  • 在频域上,本文是首次研究了如何进行频域中的时间序列数据增强
    • 通过随机抹除或增加frequency components实现频域上的数据增强
    • 为了避免频域上的增强对原始序列过大的变化,导致增强后的序列和原始序列不相似,会对增删的components和增删幅度做限制
    • 删除操作——会随机选择不超过E个频率进行删除. This method selectively alters the input data by applying a binary mask generated with a specified perturbation ratio, effectively zeroing elements based on this mask, thereby serving as a method to remove components for time series selectively
    • 增加操作——会选择那些振幅小于一定阈值的频率,并提升其振幅. Add frequency: involves the introduction of perturbations to data by utilizing a binary mask, providing a method for controlled alterations within the dataset, thereby serving as a method to selectively add components for time series.
    • low pass fitler, 低通滤波器选择性地允许低于特定频率阈值的信号通过,同时衰减较高频率,通常用于降低噪声或强调信号处理中的低频成分
    • Phase shift::高斯噪声会扰动相位谱值,而相移增强会在已有的相位值上引入一个从- π到π的随机值

同样的数据增强操作在不同模型上的效果表现不同可能受到多种因素的影响。以下是一些可能的原因:

  1. 模型架构的复杂性:

    • 复杂的模型通常有更多的参数和容量,可以更好地学习和利用增强后的数据。简单的模型可能在处理复杂特征时受限,无法充分利用数据增强带来的多样性。
  2. 模型初始化:

    • 初始权重对于模型的学习起着关键作用。有些模型在经过数据增强后可能更容易收敛到良好的解,而另一些模型可能需要更多的训练来适应增强后的数据。
  3. 数据集的特性:

    • 不同的数据集可能对数据增强有不同的响应。某些数据增强操作可能对某些数据样本更有益,而对其他样本则没有太大影响。模型的效果受数据集中样本的分布和性质影响。
  4. 超参数设置:

    • 模型的超参数(学习率、优化器等)可能需要根据数据增强的使用进行调整。有的模型对于学习率的敏感性较高,可能需要更精细的调整,以适应增强后的数据。
  5. 过拟合和欠拟合:

    • 一些模型可能在经过数据增强后更容易过拟合,尤其是在数据增强引入了更多的复杂性的情况下。另一方面,某些模型可能因为过度简化,无法充分利用增强后的数据。
  6. 训练策略:

    • 模型的训练策略也可能影响效果。例如,不同的学习率调度、训练时长等因素都可能导致效果的差异。

因此,要理解为什么同样的数据增强在不同模型上产生不同的效果,需要考虑模型本身的特性、数据集的性质、超参数设置以及训练策略等多方面因素。调整这些因素可能会帮助模型更好地利用数据增强的优势