引领先锋|面向多模态情感数据分析的智能框架


引领先锋|面向多模态情感数据分析的智能框架摘要:每天有越来越多的多模式内容发布在 YouTube 和脸书等社交媒体网站上 。 为了应对如此多的多模态数据的增长 , 本文提出了一种新的多模态信息提取代理 , 它在诸如电子学习、电子健康、自动视频内容标记和人机交互等环境中 , 推断和聚集与用户生成的多模态数据相关的语义和情感信息 。 我们所开发的智能代理采用集成特征提取方法 , 通过联合使用三模态(文本、音频和视频)特征来增强多模态信息提取过程 。 在使用 eNTERFACE 数据集的初步实验中 , 我们提出的多模态系统的准确率为 87.95% , 比最先进的系统高出 10%以上 , 相对而言 , 错误率降低了 56% 。
介绍:在过去的二十年里 , 人工智能研究人员一直试图赋予机器识别、解释和表达情感的能力 。 所有这些努力都可以归功于情感计算(Picard , 1997) , 这是一个跨越计算机科学、心理学和认知科学的新的跨学科研究领域 。 情感和情绪分析已经成为社交媒体的新趋势 , 帮助用户理解对产品表达的意见 。
在这一领域进行的越来越多的研究 , 加上信号处理和人工智能的进步 , 导致了高级智能系统的发展 , 该系统旨在检测和处理包含在多模态源中的情感信息 。 然而 , 大多数这种最先进的框架依赖于处理单一模态 , 即文本、音频或视频 。 此外 , 众所周知 , 所有这些系统在满足鲁棒性、准确性和整体性能要求方面都存在局限性 , 这反过来又极大地限制了这些系统在现实应用中的实用性 。
多传感器数据融合的目的是提高估计的准确性和可靠性 。 许多应用 , 例如导航工具 , 已经展示了数据融合的潜力 。 意味着开发一个多模态框架的重要性和可行性 , 该框架可以在以人为中心的环境中处理所有三种感知模态——文本、音频和视频 。
在这项工作中 , 我们证明了从不同类型的数据和模态中提取特征的集成应用提高了我们提出的多模态情感和情绪识别系统的性能 。 具体来说 , 我们采用监督学习范式 。 对于训练 , 我们使用了与三种模态相对应的三个数据集:ISEAR 数据集用于从文本中构建情感检测模型 , CK++数据集用于从面部表情中构建情感检测模型 , 而 eNTERFACE 数据集用于从音频中构建情感提取模型 , 以及评估其他两种模态的训练模型 。 我们使用了从相应模态的数据集中提取特征的新过程 。 然后通过连接每个模态的特征向量来融合来自三个模态的信息 。 这些组合的特征向量被输入监督分类器以产生最终输出 。
作者对几个分类器进行了实验 , 通过十倍交叉验证来评估它们的性能 。 我们发现支持向量机(SVM)分类器的性能优于最著名的最先进的系统 10%以上 , 这在相关数字中相当于错误率降低了近 60% 。
相关工作:特征提取和特征融合是多模态情感分析系统的关键 。 现有的关于多模态情感分析的工作可以分为两大类:一类是致力于从每个模态中提取特征的工作 , 另一类是开发融合来自不同模态的特征的技术 。
视频:面部表情的识别:
把愤怒、悲伤、惊讶、恐惧、厌恶和快乐作为六种基本的情感类别 。 这些基本的情感类别足以描述大多数通过面部表情表现出来的情感 。
表 1 给出了几种机器学习算法在从面部表情中检测情感方面的性能 。 然而 , 所有这样的系统都使用不同的手工制作的语料库 , 这使得不可能对它们的性能进行比较评估 。
引领先锋|面向多模态情感数据分析的智能框架表一:常见机器学习提取情感算法
文本:从文本数据中进行情感识别:
到目前为止 , 基于文本的情感和情感检测方法主要依赖于基于规则的技术、使用大型情感或情感词典的词袋建模或假设带有极性或情感标签的大型数据集的可用性的统计方法 。


推荐阅读