大家怎样看待深度学习中的数据扩增

题主所说的数据扩增,主要集中在图像和视频(视频也主要是采用分帧图像实现的)领域,常见的方法包括反转、平移、缩放、亮度变化、裁剪、光照等外部影响、颜色变换、模糊、灰度等方法,这些是比较常见的图像处理方法。如果你了解一点PS(photoshop)的话,应该就知道是怎么回事了。
这里的是否靠谱的问题,其实要看环境和限制。
目前图像和视频领域最紧缺的恰恰就是海量的数据素材资源,这是制约效果输出的关键因素之一。(除了这个因素肯定还有很多制约因素,只是现在连数据都还不多,在海量数据上运行和计算所受到的制约也没大规模发现出来而已)。
所以使用数据扩增的方法,能一定程度上提高数据容量,从而达到提高模型效果的目的,这是不得已而为之。
但是,到底能提高多少主要会受限于原始数据集、数据集所依赖的场景复杂度以及扩增实施3个方面方面影响。
以人脸识别为基础说明。
原始数据集:具有一定容量的数据是数据扩增的基本前提。假如人脸只有1张正面照,那么即使再做处理也只能基于正面照形成扩增数据,而对于仰视、俯视、侧面(例如45°、30°等角度照)的识别都无法取得好效果。当然,使用PS时可以做“透视”处理的,但处理的前提是有基本信息。例如有侧面和正面信息,可以做出一张45°的侧面照片。数据集所依赖的场景复杂度:人脸识别具有非常强的场景化应用。例如打卡人脸识别和商场人脸识别完全不是一个等级的应用。打卡人脸识别要求的场景简单,一般都是正面、脱毛、室内面对摄像头,此时做数据扩征的效果会比较明显。但如果做商品的人脸识别,要面对衣着打扮、不同姿势、不同表情、灯光环境等综合因素,这会导致一般意义上无法将全部的外部因素做“模拟”,所以也无法形成特别有效的扩增数据集。扩增实施:扩增实施的好坏直接影响到数据集的质量,这就不细说了。综合看,对于简单、固定且外部影响较少的场景下的数据扩增效果会显著一些,而对于复杂场景下几乎是效果微弱的。


■网友
【大家怎样看待深度学习中的数据扩增】 数据扩增没有那么简单,样本对抗是个要命的世界性难题,扩充数据首先要保证不会对抗,怎样扩充会对抗,怎样扩充不会对抗,才是真正的问题。

■网友
数据增强是很有用的很靠谱的手段。但要合理使用,比如,猫狗分类,把训练集图片做随机旋转、随机明暗度、随机平移、随机对称、随机缩放等等处理,是不影响图片的识别的,人眼仍然能分辨出是猫是狗,机器也一样能分辨。但有些跟距离有关系(被识别物对尺寸敏感)的都注意不能随机缩放。


    推荐阅读