表情-2023-LANET

LA-Net（Landmark-Aware Network），专注于在标签噪声下实现可靠的表情识别。标签噪声指的是训练数据中的标签错误，这在 FER 任务中是一个常见的问题，因为手动标注面部表情容易出错。LA-Net 旨在通过结合面部关键点（landmarks）的信息来提高 FER 系统的鲁棒性和准确性。
LDE 计算每个样本的标签分布，并将其作为辅助监督信号。LDE 基于表情在特征空间中应该与其邻居具有相似的情感这一假设，为每个样本在表情空间和地标空间中识别邻居。地标信息被用来纠正表达空间中的错误。然后，该模块学习成对贡献分数并进行邻域聚合，以获得目标标签分布。此外，为了减轻批次划分对在线聚合的影响，使用指数移动平均 ( EMA )对目标标签分布在前几个历元进行求和。
然而，传统的 SCL 使用独热标签来选择正负对，因此在存在标签噪声的情况下表现不佳。因此，我们的 EL Loss 设计了一种新的基于标签分布的成对选择策略来实现抗噪声 SCL。具体来说，它首先将伪标注分配给有信心的图像，并将其余部分作为无监督样本。然后，该模块将相同图像的表情和地标特征，或具有相同伪标签的图像作为正对，所有其他组合作为负对
我们提出了一个基于特征点的 FER 模型，命名为 LA - Net，它利用人脸特征点来缓解标签噪声问题。( 2 ) LDE 模块利用地标信息修正表达空间中的错误，并找到一组近邻来构建每个样本的标签分布。( 3 ) EL Loss 设计了抗噪声有监督的对比学习，并通过表情-地标交互增强了表情特征提取器。( 4 ) LA - Net 在真实数据集和合成噪声数据集上均取得了当前最好的性能。
路标定位部分使用全连接层作为分类器，并在训练过程中最小化均方误差，记为 Llm。LDE 为每个样本识别 2 K 个近邻 (表达空间中的 K 和地标空间中的 K)，并进行邻域聚合生成目标标签分布，进而提高训练监督的质量。此外，EL Loss 考虑了特征点和表情之间的相似性，并使用抗噪声有监督的对比学习将特征点信息融入到表情表示中。