在Pytorch中构建流数据集


在Pytorch中构建流数据集

文章插图
 
在处理监督机器学习任务时,最重要的东西是数据——而且是大量的数据 。当面对少量数据时,特别是需要深度神经网络的任务时,该怎么办?如何创建一个快速高效的数据管道来生成更多的数据,从而在不花费数百美元在昂贵的云GPU单元上的情况下进行深度神经网络的训练?
这是我们在MAFAT雷达分类竞赛中遇到的一些问题 。我的队友hezi hershkovitz为生成更多训练数据而进行的增强,以及我们首次尝试使用数据加载器在飞行中生成这些数据 。
要解决的问题我们在比赛中使用数据管道也遇到了一些问题,主要涉及速度和效率:
它没有利用Numpy和Pandas在Python中提供的快速矢量化操作的优势
每个批次所需的信息都首先编写并存储为字典,然后使用Python for循环在getitem方法中进行访问,从而导致迭代和处理速度缓慢 。
从音轨生成"移位的"片段会导致每次检索新片段时都重新构建相同的音轨,这也会减缓管道的速度 。
管道无法处理2D或3D输入,因为我们同时使用了scalograms和spectrograms但是无法处理 。
如果我们简单地按照批处理的方式进行所有的移位和翻转,那么批处理中就会充斥着与其他示例过于相似的示例,从而使模型不能很好地泛化 。
这些低效率的核心原因是,管道是以分段作为基本单元运行,而不是在音轨上运行 。
数据格式概述在制作我们的流数据之前,先再次介绍一下数据集,MAFAT数据由多普勒雷达信号的固定长度段组成,表示为128x32 I / Q矩阵; 但是,在数据集中,有许多段属于同一磁道,即,雷达信号持续时间较长,一条磁道中有1到43个段 。
在Pytorch中构建流数据集

文章插图
 
上面的图像来自hezi hershkovitz 的文章,并显示了一个完整的跟踪训练数据集时,结合所有的片段 。红色的矩形是包含在这条轨迹中的单独的部分 。白点是"多普勒脉冲",代表被跟踪物体的质心 。
借助"多普勒脉冲"白点,我们可以很容易地看到,航迹是由相邻的段组成的,即段id 1942之后是1943,然后是1944,等等 。
片段相邻的情况下允许我们使用移位来创建"新的"样本 。
在Pytorch中构建流数据集

文章插图
 
但是,由于每个音轨由不同数量的片段组成,因此从任何给定音轨生成的增补数目都会不同,这使我们无法使用常规的Pytorch Dataset 类 。这里就需要依靠Pytorch中的IterableDataset 类从每个音轨生成数据流 。
数据流管道设计这三个对象的高级目标是创建一个_Segment对象流,它能够足够灵活地处理音轨和段,并且在代码中提供一致的语义:
class _Segment(Dict, ABC):segment_id: Union[int, str]output_array: np.ndarraydoppler_burst: np.ndarraytarget_type: np.ndarraysegment_count: int为此,我们创建了:
一个配置类,它将为一个特定的实验保存所有必要的超参数和环境变量——这实际上只是一个具有预定义键的简单字典 。
一个DataDict类,它处理原始片段的加载,验证每一条轨迹,创建子轨迹以防止数据泄漏,并将数据转换为正确的格式,例如2D或3D,并为扩展做好准备
StreamingDataset类,是Pytorch IterableDataset的子类,处理模型的扩充和流段 。
config = Config(file_path=PATH_DATA,num_tracks=3,valratio=6,get_shifts=True,output_data_type='spectrogram',get_horizontal_flip=True,get_vertical_flip=True,mother_wavelet='cgau1',wavelet_scale=3,batch_size=50,tracks_in_memory=25,include_doppler=True,shift_segment=2)dataset = DataDict(config=config)train_dataset = StreamingDataset(dataset.train_data, config, shuffle=True)train_loader = DataLoader(train_dataset,batch_size=config['batch_size'])DataDict实现在DataDict中将片段处理为音轨,然后再处理为片段,为加速代码提供了很好的机会,特别是在数据验证、重新分割和轨创建都可以向量化的情况下 。
我们使用了Numpy和Pandas中的一堆技巧和简洁的特性,大量使用了布尔矩阵来进行验证,并将scalogram/spectrogram 图转换应用到音轨中连接的片段上 。代码太长,但你可以去最后的源代码地址中查看一下DataDict create


    推荐阅读