引领先锋|面向多模态情感数据分析的智能框架( 四 )


基于文本的情感识别
识别文本中的情感是一项具有挑战性的任务 , 因为文本中的词是模糊的 , 意义是复杂的 , 并且诸如讽刺、礼貌、写作风格等各种因素相互作用 , 以及语言在人与人之间和文化与文化之间的可变性 。 在这项工作中 , 我们遵循了坎布里亚和他的合作者开发的感知计算范式 , 认为文本表达语义和感知 。 作者使用了一种新颖的方法来识别文本中的情感 , 方法是使用其提出的新资源“情感空间”提取关键特征 。
实验结果和讨论:
引领先锋|面向多模态情感数据分析的智能框架表 8 显示了在我们的实验中使用最佳配置获得的准确度 , 以及其他研究人员在我们用于评估的同一数据集上报告的结果 。 从表 8 中可以看出 , 我们的方法优于在 eNTERFACE 数据集上测试的所有最先进的方法 , 甚至优于每个单独的模态 。 因为对于三个模态中的两个 , 我们在一个数据集上训练分类器 , 但是在另一个数据集上评估 , 所以我们的分类器不会偏向于没有过度拟合的特定数据集 。 虽然表 1 中的一些作品报告了更高的数字 , 但是它们是在不同的手工制作的语料库上完成的 , 并且彼此之间或者与表 8 中列出的作品之间是不可比较的 。 据我们所知 , eNTERFACE 是迄今为止唯一一个据报道对一些最先进的方法进行评估的语料库 , 因此可以进行相对公平的比较 。
引领先锋|面向多模态情感数据分析的智能框架我们试验了几种分类器 , 既用于多模态分类 , 也用于比较目的 , 对每种模态进行单峰分类;见表 9 。
引领先锋|面向多模态情感数据分析的智能框架
引领先锋|面向多模态情感数据分析的智能框架在人脸图像序列上 , ELM 分类器获得了最高的单峰分类精度 。 表 10 和表 11 显示 , 惊喜、中性和快乐的成功率非常高 。 主要的分类混淆是惊讶和快乐 , 惊讶和愤怒 , 恐惧和愤怒 , 厌恶和愤怒 , 因为面部表情之间的相似性 。 对于来自视频文件和面部图像序列的面部图像的分类 , 我们执行了两种不同的分类程序:单阶段 7 向分类(表 10)和第 5.3 节中解释的两阶段程序(表 11) 。 在所有标签上 , 所提出的两阶段程序被发现显著优于一阶段程序 。
引领先锋|面向多模态情感数据分析的智能框架表 12 显示了我们在 eNTERFACE 数据集上执行的两阶段单峰分类过程的结果 。 由于中性类别未在此数据集的注释方案中使用 , 因此我们不将此类别包括在表 12-15 中 。 如表 12 所示 , 在惊讶、快乐和厌恶这三个类别中 , 情感分类准确率最高 , 最差 。 再次 , 在第 5.4 节描述的两阶段过程的第一阶段丢弃中性帧被发现显著提高了分类器的性能 , 因为表达中性情感的每个剪辑的第一帧在分类过程中产生噪声
引领先锋|面向多模态情感数据分析的智能框架表 13 显示了对从 eNTERFACE 数据集的视频片段中提取的语音信号进行十倍交叉验证的混淆矩阵 。
引领先锋|面向多模态情感数据分析的智能框架为了对与输入人脸数据集的文本转录相关的情感进行分类 , 我们使用 SVM 在 ISEAR 数据集上建立了我们的训练模型 。 表 14 显示了单峰文本分析分类器的结果 。


推荐阅读