暖夏少年|滴滴 AI Labs 宋辉：单通道语音分离面临哪些挑战？| CCF-GAIR 2020 2020年8月7日-9日

2020 年 8 月 7 日-9 日， 2020 全球人工智能和机器人峰会（CCF-GAIR 2020）于深圳举行。
CCF-GAIR 2020 峰会是由中国计算机学会（CCF）主办，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办的全球盛会。大会主题从 2016 年的学产结合， 2017 年的产业落地， 2018 年的垂直细分， 2019 年的人工智能 40 周年，秉承打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
8 月 8 日上午，在前沿语音技术专场中，滴滴 AI Labs 高级专家研究员、语音研究实验室负责人宋辉博士带来了题为《基于深度学习的语音分离技术进展》的主题演讲。
宋辉博士在演讲中介绍了语音分离的发展现状，深入阐述了基于深度学习的单通道语音分离技术的发展脉络，各种技术方案的优缺点与适用场景，以及未来面临的挑战。
首先，宋辉博士展示了当下比较流行的单通道语音分离技术在两个不同的公开数据集上的表现。
如下图所示， WSJ0-2mix（蓝色线条）是安静数据集，由两个说话人混合而成， WHAM（橙色线条）是与之相对应的含噪数据集。
宋辉博士介绍，在 WSJ0-2mix 数据集上，近两年单通道语音分离技术在 SI-SDRi 指标上有比较大的进步。而对于更复杂但更贴近真实环境的噪声场景，目前的学术研究还不是特别完备，与安静环境相比在 SI-SDRi 指标上会有几个 dB 的落差。同时，表现比较好的单通道方法在含噪数据集上还没有通过完备的测试和评估。
当前单通道语音分离的主流框架是“Encoder—Separator—Decoder”框架（如下图所示），其中：

Encoder 用于将一维混合语音变换到另一个二维空间中；
Separator 用于在二维空间中学习相对于每个说话人的 Mask ，并与混合语音进行元素级别相乘，得到每一路分离后的变换域信号；
Decoder 可将每一路信号反变换回到时域。

暖夏少年|滴滴 AI Labs 宋辉：单通道语音分离面临哪些挑战？| CCF-GAIR 2020

同时，就分离方法而言，宋辉博士详细介绍到了目前的两种主流方法——基于频域（Frequency-domain）和时域（Time-domain）的语音分离方法。
一方面，频域方法的优点在于可以与传统的信号处理方法（如频域波束形成）更好的相融，可以得到更加稀疏和结构化的声学特征表征。同时缺点也比较明显，如精准的相位重建比较困难、需要较长的窗长满足频率分辨率的要求而导致的长时延等。
就频域语音分离和目标说话人抽取任务而言，宋辉博士主要介绍了几种比较有代表性的技术方法，包括 u-PIT、Deep CASA、Voice filter 和 SBF-MTSAL-Concat 。
另一方面，基于时域的语音分离近两年来受到了更多关注。时域方法能够把混合语音变换到一个实数域潜空间中，用一种 data-driven 的形式学习其特征表示，例如，可以采用 1-D CNN 或更深的 Encoder 完成这种变换。
据介绍，时域方法不需要处理相位重建问题，可做到采样点级别的时延，因而非常适用于对实时性要求高的场景。在此基础上，宋辉博士接着介绍了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+等几种有代表性的时域语音分离和说话人抽取技术。
随后，宋辉博士还介绍了单通道语音分离技术的几个热点研究方向，包括：