ICCV 2023 | EmoSet:具有丰富属性标注的大规模视觉情感数据集_鲟曦研习社 (kuxai.com)
VCC data

  • 通过利用 810 个情感关键词进行检索,该数据集包含 3.3 M 张情感图片,其中 118 K 是经过机器和人工双重标注的,数据规模是现有最大数据集的 5 倍。
  • 该工作提出了一个大规模视觉情感数据集,并首次引入了丰富的情感属性标注,在四个维度超越了现有数据集:数据规模、标注丰富度、数据多样性和数据平衡度。该数据集包含3.3M 张图片,其中118K 张图片是经过机器和人工双重标注的。除愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤八分类情感标注外,该数据集还包含:亮度、颜色、场景、物体、人脸表情和人体动作六种情感属性标注,以上属性是基于心理学相关的研究提出的。此外,该数据集包含来自社交媒体和艺术作品的图片,且在八分类情感上分布较为均衡。通过对情感与各属性进行关联分析,该工作揭示了属性对于情感分析的相关性和有效性。此外,该工作还设计了一种属性模块,利用情感属性帮助提升识别任务上的性能,实验结果和可视化实验进一步验证了属性在情感识别和理解任务上的巨大潜能。

paper

图像生成

Make Me Happier: Evoking Emotions Through Image Diffusion Models
尽管图像生成取得了快速进展,但情感图像编辑仍然没有得到充分的探索。图像的语义学、上下文和结构可以唤起情感反应,使情感图像编辑技术对各种现实世界的应用具有价值,包括心理障碍的治疗、产品的商业化和艺术设计。我们首次提出了情感诱发图像生成的新挑战,旨在合成唤起目标情感的图像,同时保留原始场景的语义学和结构。为了应对这一挑战,我们提出了一种能够有效理解和编辑源图像以传达期望的情感和情感的扩散模型。此外,由于缺乏情感编辑数据集,我们提供了一个由 340,000 对图像及其情感注释组成的独特数据集。此外,我们进行了人类心理物理学实验,并引入了四个新的评估指标来系统地对所有方法进行基准测试。实验结果表明,我们的方法超越了所有竞争基线。我们的扩散模型能够从原始图像中识别情感线索,编辑引发所需情感的图像,同时,保留原始图像的语义结构。所有代码、模型和数据集都将公开。相当于从一种到另一种。

情感识别

GPT-4 V with emotion: A zero-shot benchmark for Generalized Emotion Recognition
最近,GPT-4 with Vision(GPT-4 V)在各种任务中展示了卓越的视觉能力,但其在情感识别方面的表现尚未得到充分评估。为了弥合这一差距,我们在涵盖 6 个任务的 21 个基准数据集上展示了 GPT-4 V 的定量评估结果:视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别和多模态情感识别。本文将这些任务统称为“广义情感识别(GER)”。通过实验分析,我们观察到 GPT-4 V 在 GER 任务中表现出强大的视觉理解能力。同时,GPT-4 V 显示出整合多模态线索和利用时间信息的能力,这对于情感识别也至关重要。然而,值得注意的是,GPT-4 V 主要是为通用领域设计的,无法识别需要专门知识的微表情。据我们所知,本文首次为 GER 任务提供了 GPT-4 V 的定量评估。我们已经开源了代码,并鼓励后续研究人员通过包含更多任务和数据集来扩大评估范围。我们的代码和评估结果可在: https://github.com/zeroQiaoba/gpt4v-emotion