引领先锋|面向多模态情感数据分析的智能框架( 三 )


静态图像:CK++数据集包含从时间 T0 到 Tn 的 n 幅面部图像序列 , 每幅图像都表达了一种特定的情感 。 在时间 T0 , 受试者开始在镜头前表达情感 , 并一直表达到时间 Tn 。 序列的前几幅图像对应于一种中性的表达 , 其余的对应于一种特定情感的表达 。 我们手动将每个序列中的图像分成两类:表达中性情感的图像和表达给定情感的图像 , 如图 2 所示 。 因为我们的分类器处理的是单个图像 , 而不是序列 , 所以我们将序列视为单个图像的集合 。 这些单独的图像 , 以及它们指定的类别——或者是中性的 , 或者是六种情绪中的一种——构成了我们的数据集 。
引领先锋|面向多模态情感数据分析的智能框架静止图像:特征提取
为了从面部图像中提取面部特征点 , 我们使用了面部识别软件 Luxand·FSDK 1.74 。 如图 3 所示 , 我们从每个图像中提取了 66 个 FCPs 表 6 列出了重要的例子 。
引领先锋|面向多模态情感数据分析的智能框架静态面部图像的单峰分类:
利用刚刚描述的特征 , 我们训练了一个分类器 , 用于将静止图像双向分类为不表达情感的图像(中性类别)和表达某种情感的图像 。
请注意 , 按情感对静止图像进行完整的 7 向分类不是我们的多模态方法的一部分 , 只是为了比较而进行的 。 为了根据情感对人脸图像进行分类 , 我们设计了一个两步分类器:首先 , 我们使用我们的双向分类器来判断图像是没有表达情感(中性)还是表达了某种情感 。 在后一种情况下 , 然后进行 6 向分类以识别图像的特定情感类别 。 两个分类步骤使用相同的特征集 。 在我们实验的各种监督分类器中 , ELM 给出了最好的结果 。 两阶段分类过程提高了单峰分类的准确度:在使用 ELM 分类器的 CK++数据集上 , 一阶段 7 向分类给出了 80.48%的准确度 , 而我们的两阶段过程给出了 86.47% 。 为了估计准确性 , 我们使用了十倍交叉验证 。
视频剪辑(视觉模态):多模态融合的特征提取
为了建立一个视频片段的特征向量 , 使用它的视觉模态来显示人脸 , 我们首先将该片段拆分成一组单独的帧 。 接下来 , 我们从这些单独的帧中提取特征 , 如第 5.2 节所述 , 随后将这些图像分类为不表达情感(中性)的图像和表达某种情感的图像 , 如第 5.3 节所述 。 我们丢弃了那些被归类为无情感的帧 , 并且在下一步只使用那些有情感的帧 。 最后 , 我们使用坐标方式为视频剪辑建立特征向量为向量均值 。
视频剪辑的分类(视觉模式)
类似于静止图像的情况 , 视频剪辑的分类不是我们的多模态方法的一部分 , 并且仅仅是为了比较而执行的 。 为了对视频片段进行分类(忽略音轨和字幕) , 我们将来自 eNTERFACE 数据集的视频拆分成图像帧 , 然后将我们的两阶段分类器应用到序列的各个帧 , 最后对所有视频帧的情感标签使用多数投票来确定视频的主要情感 。
使用音频(语音)进行情感识别:
为了从语音中进行情感识别 , 我们使用了人脸作为训练和测试数据集 。 首先 , 从数据集中的视频文件中提取音频信号 。 该信号的比特率为 1536 千位/秒 , 频率为 48 千赫 。 然后我们从音频信号中提取相关特征 。 为了提取所有的音频特征 , 我们使用了 JAudio 工具包 , 这是一个用 Java 编写的音乐特征提取工具包 。
短时特征:
基于短时间的特征主要用于区分信号的时脉特征 , 并且通常从每个短时间窗口(或帧)中提取 , 在此期间 , 音频信号被假定为静止的 。
长时特征:
长期特征可以通过在一个时间窗口内聚集从几个连续帧中提取的短期特征来生成 。 本文使用了导数、标准偏差、运行均值、运行均值的导数和运行均值的标准偏差作为第 6.1 节中列出的基于短时间的特征的聚集方法 。 为了找到信号的人类可感知模式 , 作者提取了三个主要的语义特征:节拍直方图特征、节拍总和和音频信号中的最强节拍 。


推荐阅读