音频技术解析：纯理论对比PCM和DSD _音频技术

一直以来，很多HiFi发烧友在聊音乐的时候，经常会谈论到关于音乐文件采样、位深、码率的相关技术参数。44.1kHz/16bit、96kHz/24bit、192kHz/24bit这种PCM波形规格到底意味着什么、DSD这种全新的规格音质有何优势？今天笔者就以纯理论的角度为大家对比一波WAV和DSD两种文件，欢迎大家进行参考。考虑到不少入门的烧友基础较弱，笔者在第一章先科普一些基础知识，大佬可自行跳过。
一、关于采样/位深的基础知识
1.1什么是采样
先从44.1kHz说起吧，相信不少的朋友都知道44.1kHz是采样率参数，但却不知道到底什么是采样率。所谓采样率，即是录音设备每秒采集声音样本信息的频率。44.1kHz采样率，即是在录音时，设备每秒记录44100次。

文章插图
【音频技术解析：纯理论对比PCM和DSD】
为什么无损音乐的采样率会被定位44.1kHz？这其实并非偶然。根据奈奎斯特采样定理（为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍），采样率44.1KHz的数字音频格式可以无损地记录22.05KHz以下频率的音频信号（参考自香农采样定理），其刚好超过了人耳的听力范围20kHz 。对于PCM波形来说更高的采样率意味着曲线更加接近真实。
DSD64的采样率为2.8244MHz ，相等换算的话就是上面CD的44.1KHZ的64倍采样率，也就是2824400次/秒。与PCM脉冲编码调制不同的是， DSD在录制时使用PWM脉冲宽度调制，因此在图像呈现上来看也与PCM有所不同，具体笔者会在下面讨论。
1.2 什么是位深
刚刚我们提到过，采样率是每秒记录声音的次数。对于用数字波形记录声音的方式来说，如果横轴是时间，想要出现完整的波形，那么就需要一个纵轴参数来为波形的“高度”进行设定。对于音频来说，这个高度信息，就是bit（位深）。

文章插图

所谓16bit ，其真实含义是用16位的二进制数来表示采样点的电平（纵轴高度）。在PCM波形中，纵轴高度越高、听感的响度就越高。位深对音乐文件的动态表现一般直接挂钩， 16比特整数可以储存2的16次方（65536）个不同的数值，每增加1比特代表纵轴的精密度翻一倍。
1.3 PCM波形的文件都有什么？
相比于DSD来说， PCM技术于很早之前就应用于音频领域，因此其文件有很多的变种。正常的无损无压缩PCM波形的文件是WAV ，我们日常下载到的flac、ape这种无损格式都是将WAV文件无损伤压缩的音乐格式，再次解压缩后数据不会受到影响。mp3、wma等格式为有损压缩格式，再次解压为WAV后会造成数据损失。
二、PCM和DSD本质的不同
2.1 PCM、DSD的录制方式对比
PCM和DSD在录音时使用的就是两种完全不同的系统；PCM脉冲编码调制：其首先将连续的模拟信号（音乐原声）离散并抽样量化，根据瞬时点参数构建PCM波形。简单、直观、文件占用空间低是它的优势，其劣势在于量化误差较大（导致信噪比较低的原因）。

文章插图

DSD在录制时使用了另外一种调制——PWM脉冲宽度调制：它是将模拟信号转换为脉波的一种全新的记录方式。在记录时， DSD的模数转换A/D部分并非如WAV一样，而是通过采样点实现增/不变/减的判断。打个比方吧，让PCM和PWM（DSD调制技术）一起记数字， PCM在记录一串数字时是1,2,3,4,3 ，而PWM则是0,1,1,1 ， -1（只取差值）。
2.2 PCM、DSD读取方式对比
PCM波形的横轴为采样点、纵轴为位深，在做放音的数模转换D/A时，数字波形中的每个点会转换成其独有的二进制编码被指定的DSP或者CPU进行处理实现转换。对于PCM波形来说，由于每次采样都有严格的时间限制，因此PCM系统在声音回放时对晶振的需求的极高，如果解码时两方出现任何误差都会导致失真。同时，由于采样率远低于DSD ，其在取样时的受量化误差影响，其理论上的信噪比也远低于DSD 。