游龙战神|基于决策树的足球目标检测多峰数据挖掘框架( 三 )


2.2 数据预过滤由于本研究中的数据量通常很大并且目标射门与非目标射门的比率小于 1:100 , 因此 , 一种有效的数据预过滤方法具有以下三个主要方面提出了足球进球事件的观察规则 。
规则 1:作为候选目标射击 , 其音轨的最后三秒(或更少)和其下一击的前三秒(或更少)都应包含至少一个令人兴奋的点 。
规则 2:射门得分的草率应大于 40% 。
规则 3:在接连射门之后的两次连续射门中 , 至少有一个射门应该属于特写镜头 。
第一条规则来自观察和先验知识 , 即评论员和观众在射门结束时会感到兴奋 。此外 , 与其他稀疏的激发声或噪声事件不同 , 这种刺激通常会持续到下一个击球 。此规则删除了一些噪声数据 , 因为尽管通常噪声数据量很大 , 但不会持续很长时间 。 规则 2 和 3 基于以下观察结果:目标射门属于高草比率的全局射门 , 并且总是紧随其后的是特写镜头 , 包括切角球和其他与比赛无关的镜头 。
我们的实验表明 , 通过在我们提出的数据预过滤方法中应用这些规则 , 可以减少 81%的视频镜头 。
2.3 使用决策树挖掘目标镜头
在此框架中 , 决策树逻辑被用于挖掘足球视频中的射门得分 。 决策树的构建是通过根据特定条件递归划分训练集来执行的 , 直到一个分区中的所有实例都具有相同的类标签 , 或者没有更多的属性可用于进一步的划分 。 决策树中的内部节点涉及测试特定属性 , 并且从该节点派生的分支对应于测试的所有可能结果 。最终 , 形成一个叶节点 , 该叶节点带有一个类别标签 , 该标签指示最终分区内的多数类别 。 分类阶段的工作方式类似于遍历树中的路径 。 从根开始 , 某个属性的实例值决定了在每个内部节点处进行哪个分支 。 只要到达叶节点 , 就会将其关联的类标签分配给该实例 。 本研究中使用的算法是从 C4.5 决策树中采用的 。
在决策树生成过程中 , 信息增益比率准则由于其效率和简单性而用于确定最适合进行划分的属性 。 数值属性是通过双向拆分来容纳的 , 这意味着将找到一个断点 , 并将其用作将实例分为两组的阈值 。 最佳断点的投票基于信息增益值 。
3 实验结果3.1 足球视频数据和特征提取在我们的实验中 , 我们通过互联网从各种来源收集了 27 种足球视频文件 , 这些文件具有不同的风格 , 并由不同的广播公司制作 。 总持续时间为 9 小时 28 分钟 。 在总共 4885 个视频镜头中 , 只有 41 个是目标镜头 , 仅占总数的 0.8% 。
这些视频文件首先通过使用建议的镜头检测算法进行解析 。 然后 , 通过特征提取过程为每个视频镜头计算并归一化视觉和音频特征 。 我们在每个特征向量中包含 10 个音频特征和 5 个视觉特征 , 并将特征集传递到预过滤阶段 。 然后将通过预过滤生成的候选镜头用于数据挖掘阶段 , 与原始数据集相比 , 该阶段包含更少的噪声和离群值 。 预过滤后的结果池大小为 886 。
3.2 视频数据挖掘以检测目标球我们随机选择这 886 个候选镜头作为训练数据(666 个镜头 , 约占总数据的 75%)或测试数据(剩余的 220 个镜头) 。 训练数据集包含 28 个射门;而其他 13 个射门包括在测试数据集中 。
构造决策树:决策树由 C4.5 方法基于训练数据集生成 。 视觉特征(histochange 等)和音频特征(volumemean 等)都用于构造决策树 。 此外 , 我们还将根据规则 1(在第 2.2 节中指定)探索另外两个有效功能 。 首先 , 对于每个镜头 , 其最后三秒音频轨道和其后镜头的前三秒轨道(简称为 nextfirst3)的峰值音量都被累加为特征 volumesum 。 第二 , 其 nextfirst3 的平均音量充当另一个音频特征 volumenextfirst3 。 正确识别了总共 25 个进球和 637 个非进球(即分别标记为“是”和“非”) 。 换句话说 , 只有三个“是”和一个“非”实例被错误分类 。


推荐阅读