机器学习(六)
RL learning
跨媒体智能
北大 彭宇新教授的讲座从感知智能到认知智能
跨模态多模态,跨越语言 视觉 听觉。图像、视频、文本、音频表征
科学问题
语义鸿沟。视频图像的计算机特征与人类理解的语义概念不一样,如何利用多模态信息缩短语义鸿沟
异构鸿沟。视频图像包含的视觉 语言等不同模态信息的特征表示不一致,如何实现多模态信息的统一表征和引用
7个任务
统一表征映射,将表达相似语义的跨媒体数据映射到同一个空间中,转换为相似的统一表征
跨媒体关联理解与深度挖掘。相似性计算与知识挖掘
跨媒体知识图谱构建与学习
跨媒体知识演化与推理
跨媒体描述与生成X->Y,例如图像->自然语言,图像->视频
跨媒体智能引擎,结合前面,有目的的开发应用
跨媒体智能应用:内容监督、舆情分析、智能医疗
视觉-语言相互生成
研究意义:儿童教育、家居设计、文案创作、智慧医疗。文本->视频,所思即所见
视觉->语言。语言->视觉。
难点:数据难关联(异构鸿沟)。信息不完备(文本缺少视觉生成的对象 关系 属性)。图文差异大(文本视觉内容难以相互映射)
研究现状:预训练模型。(什么都懂 就做不 ...
辩论-女神节的命名比妇女节更好
反方、正方、质询、论据
机器学习(五)
Explainable AI, domain adaptation
机器学习(四)
自监督(BERT,GPT), auto-encoder, Adversarial Attack
旅行-Gallery
曾梦想仗剑走天涯,看一看世界的繁华