引领先锋|面向多模态情感数据分析的智能框架( 二 )


多模式融合:多模式融合的能力是成功实现代理-用户交互的重要前提 。 多模态融合的主要障碍之一是开发和规范一种方法 , 以在不同的时间尺度和测量值上整合来自不同来源的认知和情感信息 。 有两种主要的融合策略;特征级融合和决策级融合 。 特征级融合在执行任何分类操作之前 , 将从每个输入通道提取的特征组合在“联合向量”中 。 在决策级融合中 , 每个模态都是独立建模和分类的 。 通过选择合适的指标 , 如专家规则和简单操作符(包括多数票、总和、乘积和统计权重) , 单峰结果在过程结束时被合并 。
所用数据集:

  1. ISEAR 数据集
【引领先锋|面向多模态情感数据分析的智能框架】该调查于 20 世纪 90 年代在 37 个国家进行 , 大约有 3000 名受访者 。 受访者被要求以陈述的形式描述他们感受到特定情绪的情况或事件——一段简短的句子(平均 2.37) 。
  1. CK++数据集
这是一个由 210 个成人面部行为图像组成的综合数据集 。 实验者要求参与者进行一系列的 23 次面部展示 , 其中包括单次面部展示或多次面部展示的组合 , 每个受试者的面部图像序列都是用六种情绪类别中的一种来手工标注的 。
  1. eNTERFACE 数据集
eNTERFACE 数据库是使用 min-DIV 数字摄像机记录的 。 来自 14 个国家的 42 名受试者被要求连续听六个短篇故事 , 每个故事引发一种特殊的情绪(使用了埃克曼的六种基本情绪) 。 实验者指示他们对六种情况(故事)中的每一种做出反应 。 两位人类专家正在判断受试者的反应 , 即受试者是否通过对故事的反应明确表达了情感 。
使用/开发的知识库
  1. SenticNet 数据集:作为概念的先验极性词典 , 我们使用了 SenticNet 3.0 , 这是一个包含 30 , 000 个概念及其极性分数的词汇资源 。
  2. ConceptNet:将来自 open mind 语料库的信息表示为有向图 , 其中节点是概念 , 标记的边是连接它们的常识性断言 。
  3. EmoSenticNet: 包含大约 5700 个常识性知识概念 , 包括那些存在于 WNA 列表中的概念 , 以及它们在集合{愤怒、快乐、厌恶、悲伤、惊讶、恐惧}中的情感标签 。
  4. EmoSenticSpace:为了给情感推理建立一个合适的知识库 , 我们将所谓的“混合”技术应用到概念网和情感网 。 混合是一种同时对多个数据源进行推理的技术 , 利用了它们之间的重叠 。 基本上 , 它将两个稀疏矩阵线性组合成一个矩阵 , 其中两个初始源之间的信息是共享的 。
主要方法概述:我们将包含信息的视频片段分为三种形式:视觉信息、音轨(语音)和字幕(文本) 。 为了从多模态数据中提取可靠的情感信息 , 我们将不同模态的结果进行融合 , 以便将所有模态都包含在情感分析过程中 。 我们的算法如下进行 。
预处理:处理每个模态的数据
特征提取:从每个模态的数据集中提取用于构建训练模型的特征
融合:使用我们基于特征的融合技术融合所有模态的分类器的输出
培训:使用这些特征 , 建立和评估多模式模型
作为训练数据 , 我们将 CK++数据集用于视觉模态 , 将 ISEAR 数据集用于文本模态 , 将 eNTERFACE 数据集用于音频模态(语音) 。 作为所有三种模式的测试数据 , 我们使用了 eNTERFACE 数据集 。 我们评估了每种情态的各种监督分类器:对于文本和语音情态 , 最好的准确性是通过使用 SVM 实现的;对于视觉模态 , 借助于极限学习机(ELM);见表 4 。
引领先锋|面向多模态情感数据分析的智能框架表 4:每一模态的数据与分类器选择
使用视觉数据进行情绪识别:
人类在很大程度上是通过面部来表达情感的 。 面部表情在多模态流的情感识别中起着重要的作用 。 面部表情分析器自动识别与面部表情相关联的情感线索 , 并对面部表情进行分类 , 以便定义情感类别并对它们进行区分 。 我们使用埃克曼的六个情感类别以及一个额外的情感类别 , 中性 , 作为情感分类问题的目标类别 。


推荐阅读