游龙战神|基于决策树的足球目标检测多峰数据挖掘框架( 二 )


2.1 视频解析2.1.1 视频镜头检测
视频镜头检测是视频解析的第一步 , 检测到的镜头边界是视频特征提取的基本单位 。 在这项研究中 , 我们通过使用包括像素级比较 , 直方图比较和分割图技术(如图 2 所示)的多重过滤体系结构 , 改进了我们以前的工作 。 前两个滤波器在减少误报和误报的数量上可以相互补偿 。 此外 , 由于对象分割和跟踪技术对亮度变化和对象运动的敏感度要低得多 , 因此它们被用作此多滤镜体系结构中的最后一个滤镜 , 以帮助确定实际的镜头边界 。 该方法的优点是:1)它具有高精度(> 92%)和召回率(> 98%) 。 根据我们在 1000 多个测试镜头中的实验获得的总体性能 。2)在镜头检测过程中 , 它可以为每个镜头生成一组重要的视觉特征 。 因此 , 可以大大减轻提取视觉特征的计算 。
游龙战神|基于决策树的足球目标检测多峰数据挖掘框架图 2 镜头检测的多重过滤架构
2.1.2 视觉特征提取
除了镜头边界之外 , 视频镜头检测过程还生成与每个视频镜头相关联的丰富视觉特征集 。 在这些视觉特征中 , pixelchange 表示镜头中各帧之间变化的像素的平均百分比 , 由第一个滤镜(像素级滤镜)输出 。 特征 histochange 指示镜头内各帧之间的直方图差异的平均值 , 并由第二个过滤器(直方图过滤器)输出 。 这两个全局功能都是相机运动和物体运动的重要指示 。 其他中级特征 , 例如背景像素的均值(backmean)和方差(backvar)可以通过分段过滤器获得 。 如图 3(c)-(d)所示 , 通过对象分割来检测背景区域(黑色)和前景区域(灰色) 。 在全局视图中(图 3(a)和(c)) , 倾向于将草皮区域作为背景 , 而在特写镜头中(图 3(b)和(d)) , 背景非常复杂 。 根据我们的观察 , 全局视图镜头(包括目标镜头)中存在大量草地区域 , 而中景或特写镜头中几乎没有草地区域或几乎没有草地区域 镜头(包括进球后的欢呼镜头) , 这意味着视频镜头中的平均草地面积百分比(grass_ratio)是对镜头类型(全局 , 近摄等)进行分类的重要指示 。
游龙战神|基于决策树的足球目标检测多峰数据挖掘框架图 3 (a)射门(整体视野)的样本框;(b)在(a)的射门之后 , 欢呼镜头中的样本框;(c)-(d)(a)和(b)的对象分割结果 。
我们观察到 , 全局拍摄中的草皮区域在颜色和纹理方面都比较平滑 。 因此 , backvar 小于阈值的值将指示可能的草丛面积 。 然后 , 我们将所有可能的草地区域的 backmean 值分组到一个候选池中 , 通过剔除那些镜头太短和 backmean 值超出平均 backmean 合理范围的镜头来滤除异常值 , 并取平均值剩下的值作为草检测器 。 还开发了一种强大的方法来处理更复杂的情况 , 当全局镜头和近摄镜头之间的草色不同时 , 这些镜头是由相机的拍摄比例和闪电条件引起的 。 在这种情况下 , 我们选择候选池中值的直方图峰作为草检测器 。 应当指出的是 , 这种草皮区域检测方法是无监督的 , 并且通过在每个视频序列内通过无监督学习来学习草木值 , 这对于不同类型的视频是不变的 。
2.1.3 音频特征提取
在我们的框架中考虑了时域和频域音频功能 。 由于音轨的语义含义可以由相对较长时间段的音频特征更好地表示 , 因此我们还将探讨剪辑级和镜头级音频特征 。 在这项研究中 , 我们定义了一个音频剪辑 , 其固定长度为一秒 , 通常包含连续的音频帧序列 。
通用音频功能分为三组:音量功能(音量) , 能量功能(能量)和频谱通量功能(sf) 。对于每个通用音频功能 , 将处理音频文件以获得剪辑级别和镜头级别的音频功能 。 音频数据以 16,000 HZ 的采样率进行采样 。 音频帧包含 512 个样本 , 在 16,000 HZ 的采样率下持续 32ms 。 在每个剪辑内 , 相邻帧彼此重叠 128 个样本 。为了更准确地对能量属性进行建模 , 本研究中还使用了四个能量子带 。在我们的框架中 , 总共使用了 10 个音频功能(1 个音量功能 , 5 个能量功能和 4 个频谱通量功能) 。


推荐阅读