SignQuery: A Natural User Interface and Search Engine for Sign Languages with Wearable Sensors

传统的需要,手语转换成 text,再去搜索。现在直接是手语搜索对应的,相当于建立一个新的 match

创新点

  • search engine
  • encode to common representation space
  • generate virtual dataset
  • real-user study

不是同时训练三个模态。我们利用 CLIP 的训练方案:首先使用提出的损失训练一个 IMU 和视频的联合嵌入空间,然后使用冻结的 IMU 编码网络将文本嵌入到相同的联合空间中。

实验

  • 从视频得到的虚拟 imu 数据来训练,测试是用实验室数据。
  • 训练:训练集和评估集分别由 24109 个和 3178 个数据点组成,总词汇量为 15896 个。
  • 测试:12 人
  1. Video
    1. 直接用 video encoder 效果不好,因为这些模型是用来做视频理解和分类的,其视频比较复杂有人有车,而手语视频信息相对比较简单。手语视频包括手信息,头部,身体晃动和表情。
    2. 因此,用视频简化技术,减少了视频和 IMU 之间的信息差异。
      1. Preprocessed by an off-the-shelf hand keypoint extractor (Google MediaPipe [96]), then we transform the locations of fingers with respect to wrists。 Keep locations from the bottom joints of all fingers.
    3. Resnet
  2. IMU
    1. 网络和视频类似。输入为2 × 10 × 3 denoting the IMU data from two hands, each hand with five sensor rings, and each ring with three axes of acceleration and orientation data.
    2. IMUTube [55] and ZeroNet [64] to synthesize virtual IMU data
      1. Body size standardization
      2. Synthesizing Accelerometer Data:
        1. Get Locations of finger joints and the wrist
        2. 二重微分得到加速度
        3. 转换数据到 a common frame of reference (local frame of the wrist).
      3. Synthesizing Orientation Data
        1. 通过底层手指关节和指尖之间的向量来估计方向,作为捕获方向的方向向量
        2. Converted to a common frame of reference (local frame of the wrist)
    3. 处理数据
      1. Opportunistic calibration techniques [103] and complementary filters to estimate orientations
      2. A 3 [103] to opportunistically select measurements from magnetometers and accelerometers when they are free of magnetic interference or motion artifacts, and fuses them with gyroscope measurements, thus periodically resetting drifts in gyroscope integration, as well as handling effects of magnetic interference and motion artifacts.(magnetic interference from objects such as metallic doors, furniture)
  3. Text
    1. ( i )预训练的词嵌入对单个单词进行编码;
    2. ( ii ) NetVlAD [ 13 ]学习词向量之间的关系;
    3. ( iii )和一个简单的全连接层,得到一个固定长度的向量 fT ( t )∈Rd。

Loss

Max of Hinge (MH) 损失
MH 损失基于边际排名损失,对于每个训练查询,根据与其最接近的负样本对模型进行惩罚。给定一个 (i, v) 对,IMU 和视频的最难负样本分别是:

  • ( i_H = \arg\max_{j \neq i} \text{sim}(j, v) )
  • ( v_H = \arg\max_{j \neq v} \text{sim}(i, j) )

MH 损失定义为:
[ L_{MH} = \max_{v_H} [\alpha + \text{sim}(i, v_H) - \text{sim}(i, v)]+ + \max{i_H} [\alpha + \text{sim}(i_H, v) - \text{sim}(i, v)]+ ]
其中,([x]
+ \equiv \max (0, x)),(\alpha) 表示边距。

Restricted Max of Hinge (RMH) 损失
RMH 损失基于 MH 损失,但引入了变化边距。在训练初期,固定边距为 0,因为此时嵌入不稳定,容易导致负样本选择不准确。在模型稳定后,边距设置为 0.05。

RMH 损失定义为:
[ L_{RMH} = \max_{v_H} [\alpha (t) + \text{sim}(i, v_H) - \text{sim}(i, v)]+ + \max{i_H} [\alpha (t) + \text{sim}(i_H, v) - \text{sim}(i, v)]_+ ]

  • 确保损失非负。
  • α 是边距参数,确保正样本对的相似度比负样本对高至少 α

这种变化边距的设计是因为在训练初期嵌入不稳定,负样本选择不准确,随着模型训练,嵌入逐渐稳定,可以使用更严格的边距。实验表明,这种方法在性能上有显著提高。