中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到


人工智能毫无疑问已经成为了近年来全球科技行业角逐最激烈的领域 。
人工智能相关的框架、算法等层出不穷 , 而这些都离不开模型训练 。
比如 , 要开发一个新的人脸识别算法 , 就需要一个庞大而多样化人脸图像数据集 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

通俗点来讲 , 机器学习算法是个笨学生 , 没法一点就通 , 于是唯一有效的策略就是模型训练——玩命刷题 。
刷题就必须要有题库 , 而这个题库就是我们所说的数据集了 。
通过这样的不断训练 , 算法输出的结果才会既公平又准确 。
在大数据的时代 , 尤其是随着物联网和移动设备的发展 , 我们拥有的数据越来越多 , 种类也包括图片、文本、视频等非结构化数据 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

或许你曾听说过人脸数据集、语音数据集、驾驶体验视频数据集、新华字典数据集、女装大佬数据集等等五花八门的数据集 。
这些项目涵盖了我们生活的方方面面 , 涉及了各个领域 , 派上了巨大的用场 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

但是 , 你应该没有听说过专门的秃头数据集吧?

中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

就在前不久 , 一位来自印度的学生Ashish Jangra , 在Kaggle(数据科学竞赛平台)发布了一个名为「Bald Classification Dataset」的秃头分类数据集 。
这个数据集里面包含了20 多万张、总共1.3G的秃头人像照片 , 一经上线就火遍开发圈 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

这些秃头照片依次存放在测试、训练、验证等3个数据集文件夹上 。
每个文件夹也包括Bald和NotBald两种图像 , 严谨中透露着一丝心酸 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

这些秃头人像数据集的来源 , 主要是欧美公众人物 , 包含政商界、娱乐圈、体育界人士 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

笑归笑 , 至于这个数据集的用途 , 也还是很有前景的 。
我们可以利用它来训练秃头识别模型:Ai识别图片中的人物是否秃头 。
再进一步 , 就能通过训练秃头数据集 , 快速算出合影、视频、或区域街景中 , 目标区域中的“含秃率” 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

由此 , 便可以快速得出一个区域里某类人群的作息规律、审美习惯、职业背景、身体素质等等信息 。
比如:

到底是互联网产业园“含秃率”高 , 还是文创广告孵化园的“含秃率”高?
到底是医学院、建筑学院 , 还是计算机学院“含秃率”高?
到底是俄罗斯“含秃率”高 , 还是英国“含秃率”高?
大家再也不用吵得不可开交 , 算法直接告诉你结果 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

对于甲方爸爸、公司、学校来讲 , 也可以通过“含秃率”来进行KPI考核 , 以此作为对年度贡献团队/实验室的评定参考 。
中年|开发者收集20万张人体敏感部位照片作为数据集,网友:有被冒犯到
本文插图

在医疗领域 , 还可以通过它在皮肤科、内分泌科、脱发专科门诊 , 协助医生进行病理性脱发的病程判定 。


推荐阅读