|YOLOv5的妙用:学习手语,帮助听力障碍群体( 二 )


本文插图

?即使只有几个手部图像用于训练 , 模型仍能在如此小的数据集上展现不错的性能 , 而且还能以一定的速度提供优秀的预测结果 , 这一结果表现出了很大的潜力 。
更多数据有助于创建可在多种新环境中使用的模型 。
如以上视频所示 , 即使字母有一部分出框了 , 模型仍能给出不错的预测结果 。 最令人惊讶的是 , 字母 J 和 Z 也得到了准确识别 。
?
?其他测试
David 还执行了其他一些测试 , 例如:
左手手语测试
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

?
几乎所有原始图像都显示的是右手 , 但 David 惊喜地发现数据增强在这里起到了作用 , 因为有 50% 的可能性是针对左手用户进行水平翻转 。
?儿童手语测试
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

?David 儿子的手语数据未被用于训练集 , 但模型对此仍有不错的预测 。
?多实例
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

【|YOLOv5的妙用:学习手语,帮助听力障碍群体】?
尽管手语的使用和视频中有所不同 , 但这个示例表明当多个人出现在屏幕上时 , 模型可以分辨出不止一个手语实例 。
模型局限性
David 发现 , 该模型还有一些地方有待改进 。
距离
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

?
许多原始图像是用手机拍摄的 , 手到摄像头的距离比较近 , 这对远距离推断有一定负面影响 。
新环境?
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

?
这支视频来自于志愿者 , 未用于模型训练 。 尽管模型看到过很多字母 , 但对此的预测置信度较低 , 还有一些错误分类 。
?背景推断
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

该测试旨在验证不同的背景会影响模型的性能 。
结论
这个项目表明:计算机视觉可用于帮助听力障碍群体获取更多便利和教育资源!
该模型在仅使用小型数据集的情况下仍能取得不错的性能 。 即使对于不同环境中的不同手部 , 模型也能实现良好的检测结果 。 而且一些局限性是可以通过更多训练数据得到解决的 。 经过调整和数据集的扩大 , 该模型或许可以扩展到美式手语字母表以外的场景 。
|YOLOv5的妙用:学习手语,帮助听力障碍群体
本文插图

资源?
Yolov5 GitHub 项目:https://github.com/ultralytics/yolov5
Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt
Cudnn 安装指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
OpenCV 安装指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8
Roboflow 增强流程:https://docs.roboflow.com/image-transformations/image-augmentation
常用图像数据增强技术综述论文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3
Pillow 库:https://pillow.readthedocs.io/en/latest/handbook/index.html
labelImg:https://github.com/tzutalin/labelImg
Albumentations 库:https://github.com/albumentations-team/albumentations


推荐阅读