跨媒体智能
北大 彭宇新教授的讲座
从感知智能到认知智能
- 跨模态多模态,跨越语言 视觉 听觉。图像、视频、文本、音频表征
- 科学问题
- 语义鸿沟。视频图像的计算机特征与人类理解的语义概念不一样,如何利用多模态信息缩短语义鸿沟
- 异构鸿沟。视频图像包含的视觉 语言等不同模态信息的特征表示不一致,如何实现多模态信息的统一表征和引用
7个任务
统一表征映射,将表达相似语义的跨媒体数据映射到同一个空间中,转换为相似的统一表征
跨媒体关联理解与深度挖掘。相似性计算与知识挖掘
跨媒体知识图谱构建与学习
跨媒体知识演化与推理
跨媒体描述与生成X->Y,例如图像->自然语言,图像->视频
跨媒体智能引擎,结合前面,有目的的开发应用
跨媒体智能应用:内容监督、舆情分析、智能医疗
视觉-语言相互生成
- 研究意义:儿童教育、家居设计、文案创作、智慧医疗。文本->视频,所思即所见
- 视觉->语言。语言->视觉。
- 难点:数据难关联(异构鸿沟)。信息不完备(文本缺少视觉生成的对象 关系 属性)。图文差异大(文本视觉内容难以相互映射)
- 研究现状:预训练模型。(什么都懂 就做不精)
主要工作
任务1 视频描述生成
时空信息建模
对象容易错或者漏。正时序和逆时序对齐
2.
3. 时序图是有效的,双向时序图是互补的
4. 正确与否和细腻度精确
- 语义一致性建模
任务2 文本到图像/视频生成
语义一致 内容真实 符合逻辑
5. 视频
1. 
应用
- 图像视频识别。OCR技术 识别视频中文本,监管视频中人脸
- 异构数据关联系统
- 图像细分类系统。车型识别,鸟类。
- 视频描述生成系统。
- 文本到图像生成。
- 跨媒体知识图谱
联系方式
问题答疑
有没有比较好的思路去有效的提取非日常的比较特殊的文本的跨模态统一表征?例如古诗词,文言文,戏剧对白等中文环境中比较特殊的文本
大模型预训练。(不够准确和细腻)
特定领域的。有明确定位,相关素材训练,模型生成。
现在的预训练大模型在跨媒介学习领域中取得了很好的效果,比如CLIP,stable diffusion,这也代表了该领域的最新发展趋势。基于这些预训练大模型,您觉得有哪些研究方向适合我们学术界的同学来重点突破的?换一个数据级,结果还成立吗? 预训练和大模型,任意数据集。量化,不依赖预训练的轻量化模型。
知识数据联合驱动。深度学习利用的是数据。知识:知识图谱,历史
在多模态学习的过程中,比如图片,文本和语音,三种模态,在同一个大的网络框架中,如何在不同模态间消除信息冗余,让不同模态特征对齐的更好?映射矩阵。其实目前最大的问题是,让不同 特征在这个映射矩阵中输出的,特征能计算相似度。
现在最重要的是,准确,降低训练数据
现在的SOTA方法使用大规模模型来理解长难句子的语义信息,但是在实际应用中一般使用小模型来推理。请问如何设计知识蒸馏方法以使得表征能力较弱的小模型也能够理解长难句的语义信息。在实验过程中,当数据集够大的时候,感觉蒸馏的作用就比较小了轻量化。连续学习。综合不同方法
在文本生成图像的过程中,是如何看待一词多义的问题,就比如输入的文本时iron man,我希望生成的的钢铁侠的图像,实际上生成的确实一个熨斗人。这种一词多义是文本生成图像领域需要解决的问题还是本质上我们就希望它生成多样化的图像?这个问题要一步步来解决。现在更大的问题:跨域(准确和细腻)
这个问题是自然语言的问题。语义的多样性。可以在语义到图像前面加一层。
用小样本训练出有效的模型一种是公司 大训练数据 大算例,一种是学校 小样本。
基于预训练模型做的,卡脖子问题
怎么找训练数据。旋转平移缩放 生成。