对比学习 时序 2022-TFC-Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
NeurIPS | 通过时频一致性对时间序列进行自监督对比预训练 (qq.com)
论文笔记:Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency-CSDN博客
TFC-Pretraining: 基于时间频率一致性对时间序列进行自监督对比预训练《Self-Supervised Contrastive Pre-Training for Time Series via Time-Frequency Consistency》(时间序列、时序表征、时频一致性、对比学习、自监督学习) - ZERO- - 博客园 (cnblogs.com)
在时间序列中,之前并没有找到一个在不同数据集上都一致的先验假设——>本文找到了一种不论在什么样的时间序列数据集中都存在的规律,那就是一个时间序列的频域表示和时域表示应该相似——>提出了Time-Frequency Consistency (TF-C)的核心架构,以对比学习为基础,让时域和频域的序列表示尽可能接近
数据增强 ...
数据集-2023emoset
ICCV 2023 | EmoSet:具有丰富属性标注的大规模视觉情感数据集_鲟曦研习社 (kuxai.com)VCC data
通过利用 810 个情感关键词进行检索,该数据集包含 3.3 M 张情感图片,其中 118 K 是经过机器和人工双重标注的,数据规模是现有最大数据集的 5 倍。
该工作提出了一个大规模视觉情感数据集,并首次引入了丰富的情感属性标注,在四个维度超越了现有数据集:数据规模、标注丰富度、数据多样性和数据平衡度。该数据集包含3.3M 张图片,其中118K 张图片是经过机器和人工双重标注的。除愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤八分类情感标注外,该数据集还包含:亮度、颜色、场景、物体、人脸表情和人体动作六种情感属性标注,以上属性是基于心理学相关的研究提出的。此外,该数据集包含来自社交媒体和艺术作品的图片,且在八分类情感上分布较为均衡。通过对情感与各属性进行关联分析,该工作揭示了属性对于情感分析的相关性和有效性。此外,该工作还设计了一种属性模块,利用情感属性帮助提升识别任务上的性能,实验结果和可视化实验进一步验证了属性在情感识别和理解任务上的巨大潜能。
...
时序-2024-TSLANET
论文提出的 TSLANet 的结构。将输入时间序列分割成 patches,并添加位置嵌入。接下来,输出嵌入通过 TSLANet 层,其中每层由两个主要组件组成。
第一个是自适应频谱块 ASB,它利用频域表示进行鲁棒特征提取,并采用自适应阈值来减轻噪声。第二个是交互式卷积块 ICB,它通过卷积操作捕获复杂的时间模式。
2.1 Adaptive Spectral Block(ASB)
FFT F = F [ S P E ] ∈ C C × L ′ F=\mathcal{F}[S_{PE}]\in C^{C×L^′}F=F[SPE]∈CC×L′ 对时间序列的每个通道进行独立 FFT 变换,得到一个综合的频域表示 F,它封装了原始时间序列在所有通道上的频谱特征。
高频噪声的自适应去除 高频分量通常代表偏离潜在趋势或信号的快速波动,使它们看起来更加随机且难以解释。因此,提出了一种自适应局部滤波器,允许模型根据数据集特征动态调整滤波水平,并去除这些高频噪声成分。在处理频谱可能随时间变化的非平稳数据时,这一点至关重要。该滤波器自适应地为每个特定的时间序列数据设置合适 ...
时序-IEEE SPL-Learning Latent ODEs With Graph RNN for Multi-Channel Time Series Forecasting
Learning Latent ODEs With Graph RNN for Multi-Channel Time Series Forecasting
introduction先介绍任务的重要性,再介绍时空模型的两种架构,再介绍ODE和别的结合,(此前的模型已经将NODE应用于分解神经架构,而我们尝试在耦合神经架构上进行探索)最后说自己把ODE引入耦合神经架构上。
多通道时间序列预测的重要性多通道时间序列预测在现实世界中的各种应用中扮演着关键角色,例如交通流量预测和能源网平衡。最近的研究已经证实了其有效性。多通道时间序列本质上是由传感器捕获的单变量信号的组合,这些信号是相互关联和互相影响的。为了准确预测这些多通道信号,必须精确地建模其中固有的时空模式。
时空模型的主要架构时空模型通常分为两种主要架构:分解神经架构和耦合神经架构。
分解神经架构这种架构独立捕捉非线性时间和空间模式。图神经网络(GNN)被广泛用于捕捉空间特征,而基于卷积神经网络(CNN)的方法如时间卷积网络(TCN)或基于注意力机制的模型则用于建模时间特征。例如:
STGNN 通过一系列包含TCN和GCN层的块来组装 ...
多模态-CVPR2024 -Multimodal PathwayMultimodal Pathway
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities 多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)_multimodal pathway: improve transformers with irre-CSDN博客论文地址: https://arxiv.org/abs/2401.14405 项目网页:https://ailab-cvc.github.io/M2PT/开源代码:https://github.com/AILab-CVC/M2PT讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/
其他模态的,任务无关的数据训练辅助 transformer。
目标 transformer 和辅助 transformer 之间构建 pathway,于是目标模态数据可以同时被两个模型评估
A modality-specific tokenizer and task-specific head, 和之前一样
Cro ...
多模态-MobiCom2023- SignQuery
SignQuery: A Natural User Interface and Search Engine for Sign Languages with Wearable Sensors
传统的需要,手语转换成 text,再去搜索。现在直接是手语搜索对应的,相当于建立一个新的 match
创新点
search engine
encode to common representation space
generate virtual dataset
real-user study
不是同时训练三个模态。我们利用 CLIP 的训练方案:首先使用提出的损失训练一个 IMU 和视频的联合嵌入空间,然后使用冻结的 IMU 编码网络将文本嵌入到相同的联合空间中。
实验
从视频得到的虚拟 imu 数据来训练,测试是用实验室数据。
训练:训练集和评估集分别由 24109 个和 3178 个数据点组成,总词汇量为 15896 个。
测试:12 人
Video
直接用 video encoder 效果不好,因为这些模型是用来做视频理解和分类的,其视频比较复杂有人有车,而手语视频信息相对比较简单。 ...