多模态-MobiCom2023- SignQuery
SignQuery: A Natural User Interface and Search Engine for Sign Languages with Wearable Sensors
传统的需要,手语转换成 text,再去搜索。现在直接是手语搜索对应的,相当于建立一个新的 match
创新点
search engine
encode to common representation space
generate virtual dataset
real-user study
不是同时训练三个模态。我们利用 CLIP 的训练方案:首先使用提出的损失训练一个 IMU 和视频的联合嵌入空间,然后使用冻结的 IMU 编码网络将文本嵌入到相同的联合空间中。
实验
从视频得到的虚拟 imu 数据来训练,测试是用实验室数据。
训练:训练集和评估集分别由 24109 个和 3178 个数据点组成,总词汇量为 15896 个。
测试:12 人
Video
直接用 video encoder 效果不好,因为这些模型是用来做视频理解和分类的,其视频比较复杂有人有车,而手语视频信息相对比较简单。 ...
表情-2023-DFER-CLIP
DFER-CLIP——使用创新视觉语言模型进行动态面部表情识别_fer sfer dfer-CSDN博客
传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异
在视觉部分,以 CLIP 图像编码器为基础,引入了一个由多个 Transformer 编码器组成的时间模型,模拟随时间变化的面部表情特征。在文本部分,采用了与面部行为相关的面部表情描述符,这些描述符由大规模语言模型(如 ChatGPT)生成。我们还为这些描述符设计了可学习的上下文,以帮助模型在训练过程中学习每个面部表情的相关上下文信息。
三个数据集,视频,七种基本面部表情
基于文本(无分类器)的训练策略
Learnable context+基于 LLM 的描述,时序建模(几个 transformer encoder)提取时序特征
每个生成的面部表情类别的描述符组合在一起,形成一个综合描述。
code
表情-2024-zero shot, LLM
Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
“projection on latent visual and textual representations to emphasize crucial task-specific elements while disregarding irrelevant ones.” (Zhao 等, 2024, p. 2) 从 initial joint space 映射到 task specific joint space
Cos similarity
表情-2023-LANET
LA-Net(Landmark-Aware Network),专注于在标签噪声下实现可靠的表情识别。标签噪声指的是训练数据中的标签错误,这在 FER 任务中是一个常见的问题,因为手动标注面部表情容易出错。LA-Net 旨在通过结合面部关键点(landmarks)的信息来提高 FER 系统的鲁棒性和准确性。
LDE 计算每个样本的标签分布,并将其作为辅助监督信号。LDE 基于表情在特征空间中应该与其邻居具有相似的情感这一假设,为每个样本在表情空间和地标空间中识别邻居。地标信息被用来纠正表达空间中的错误。然后,该模块学习成对贡献分数并进行邻域聚合,以获得目标标签分布。此外,为了减轻批次划分对在线聚合的影响,使用指数移动平均 ( EMA )对目标标签分布在前几个历元进行求和。
然而,传统的 SCL 使用独热标签来选择正负对,因此在存在标签噪声的情况下表现不佳。因此,我们的 EL Loss 设计了一种新的基于标签分布的成对选择策略来实现抗噪声 SCL。具体来说,它首先将伪标注分配给有信心的图像,并将其余部分作为无监督样本。然后,该模块将相同图像的表情和地标特征,或具有相同伪标签的图像作为正对 ...
表情-合集-landmarks
LA-Net: Landmark-Aware Learning for Reliable Facial Expression Recognition under Label Noise 1. 解决 label noise 问题:LDE module 和 EL loss 1. LDE 模块估计训练样本的标签分布,以增强对损坏标签的抵抗能力 2. 一个有知识的特征提取器也可以帮助减轻标签噪声,用 landmarks。“expression-landmark contrastive loss (EL Loss) 3. Landmark 没有用在 Inference 只是 trainingLA-Net/loss.py at master · hw-tony/LA-Net (github.com) 4. 提取 Landmark 特征的 heatmap可参考 HRNet网络简介-CSDN博客
服务器-GPU
PyTorch指定GPU的方法 - 简书 (jianshu.com)RuntimeError: device >= 0 && device < num_gpus,但明明device=0且num_gpus>1_device>=0-CSDN博客
vscode连接远程服务器的指定虚拟环境 - 七三七3 - 博客园 (cnblogs.com)
Windows成功解决:AssertionError: Torch not compiled with CUDA enabled-CSDN博客通过命令行快速安装pytorch2.0(GPU)_torch==2.0.1+cu118 国内镜像-CSDN博客
1234pip install torch==2.1.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118import torchtorch.cuda.is_available()
Linuxanaconda Linux安装Anaconda(Anacon ...
method-知识蒸馏
知识蒸馏(Knowledge Distillation)是一种在计算机视觉领域应用广泛的模型压缩技术,它旨在将一个大型、训练好的复杂模型(称为教师模型)的知识转移至一个更小、更高效的模型(称为学生模型)。通过这种方式,学生模型能够在保持相对较高准确率的同时,减少计算资源的消耗和提高运行效率。这项技术对于在移动设备和边缘计算设备上运行大型深度学习模型尤为重要,广泛应用于图像分类、目标检测和面部识别等计算机视觉任务中。
课程-随机过程
方差、协方差,一维二维分布函数、宽平稳、独立增量(平稳独立增量,时间变长也增加)
实际上是采用平稳的这个定义想办法将随机过程中的时间这个参量进行了弱化,对于严平稳来说一维特性(一维概率密度、均值、方差)都和时间没有关系,二维特向仅与时间差有关(二维概率密度、相关函数、协方差函数)。对于广义平稳来说,均值与时间无关,相关函数仅与时间差有关。
泊松过程
强度参数
可加性、负值、
(计数过程)
马尔科夫链
极限分布、转移概率、平均时间、哪些状态是⾮常返的?哪些状态是常返的?求常返状态的平均返回时间;求各状态的周期并将状态空间分解
ppt
离散时间、连续时间
马氏性、条件独立性
本章只讨论时齐(齐次)马氏链,并且简称为马氏链
P_ij 代表 i 转移到 j 的概率
时齐马氏性
N 步转移概率
状态的分类
非常返和零常返,平稳分布,极限分布
鞅
鞅停时定理
布朗运动
model-GNN
GNN
图神经网络研究综述(GNN) (qq.com)
综述 | 基于图神经网络的时间序列模型 (qq.com)
深度学习GAN网络之CycleGAN - 知乎 (zhihu.com)
图神经网络模型在大规模数据应用中面临的挑战可分为图数据结构、图神经网络模型、数据规模、硬件平台。
图卷积神经网络、图注意力网络、循环图神经网络和自编码器图神经网络.
model-generative modesl
[[model-GAN]][[model-encoder]][[model-diffusion]]
优缺点GAN models are known for potentially unstable training and less diversity in generation due to their adversarial training nature. VAE relies on a surrogate loss. Flow models have to use specialized architectures to construct reversible transform.