|YOLOv5的妙用:学习手语,帮助听力障碍群体( 二 )
本文插图
?即使只有几个手部图像用于训练 , 模型仍能在如此小的数据集上展现不错的性能 , 而且还能以一定的速度提供优秀的预测结果 , 这一结果表现出了很大的潜力 。
更多数据有助于创建可在多种新环境中使用的模型 。
如以上视频所示 , 即使字母有一部分出框了 , 模型仍能给出不错的预测结果 。 最令人惊讶的是 , 字母 J 和 Z 也得到了准确识别 。
?
?其他测试
David 还执行了其他一些测试 , 例如:
左手手语测试
本文插图
?
几乎所有原始图像都显示的是右手 , 但 David 惊喜地发现数据增强在这里起到了作用 , 因为有 50% 的可能性是针对左手用户进行水平翻转 。
?儿童手语测试
本文插图
?David 儿子的手语数据未被用于训练集 , 但模型对此仍有不错的预测 。
?多实例
本文插图
【|YOLOv5的妙用:学习手语,帮助听力障碍群体】?
尽管手语的使用和视频中有所不同 , 但这个示例表明当多个人出现在屏幕上时 , 模型可以分辨出不止一个手语实例 。
模型局限性
David 发现 , 该模型还有一些地方有待改进 。
距离
本文插图
?
许多原始图像是用手机拍摄的 , 手到摄像头的距离比较近 , 这对远距离推断有一定负面影响 。
新环境?
本文插图
?
这支视频来自于志愿者 , 未用于模型训练 。 尽管模型看到过很多字母 , 但对此的预测置信度较低 , 还有一些错误分类 。
?背景推断
本文插图
该测试旨在验证不同的背景会影响模型的性能 。
结论
这个项目表明:计算机视觉可用于帮助听力障碍群体获取更多便利和教育资源!
该模型在仅使用小型数据集的情况下仍能取得不错的性能 。 即使对于不同环境中的不同手部 , 模型也能实现良好的检测结果 。 而且一些局限性是可以通过更多训练数据得到解决的 。 经过调整和数据集的扩大 , 该模型或许可以扩展到美式手语字母表以外的场景 。
本文插图
资源?
Yolov5 GitHub 项目:https://github.com/ultralytics/yolov5
Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt
Cudnn 安装指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
OpenCV 安装指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8
Roboflow 增强流程:https://docs.roboflow.com/image-transformations/image-augmentation
常用图像数据增强技术综述论文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3
Pillow 库:https://pillow.readthedocs.io/en/latest/handbook/index.html
labelImg:https://github.com/tzutalin/labelImg
Albumentations 库:https://github.com/albumentations-team/albumentations
推荐阅读
- 标杆学习|走进青岛海尔、红领(酷特智能)总部商务考察学习
- 标杆学习|走进北京小米新总部参观考察-对标小米互联网思维与生态链创新
- 标杆学习|走进北京京东总部商务考察学习精彩集锦
- 职场办公学习|每次进货价格不一样,Excel批量计算利润
- 云计算|ModelArts平台加持,华为云在机器学习领域领先
- |强化学习:10种真实的奖励与惩罚应用
- 华为|Forrester发布机器学习报告,“点赞”华为云ModelArts平台
- 孩子|全方位陪伴孩子学习 大力智能家教灯T5 Pro体验
- 南方都市报|爱学习又完成近2亿美元融资,GIC领投,华平等原股东跟投
- 爱学习|互联网教育企业“爱学习教育集团”获近2亿美元D2轮融资