语音信号处理笔记（1） | 小奥の部落格

1.声音三要素：音调、音色、响度。

2.汉明窗的好处：选择一个窗函数主要是看它的主瓣宽度和旁瓣衰减，理论上主瓣宽度越窄越好，旁瓣衰减越大越好。汉明窗是相比来说性能比较好的一个窗函数，比如矩形窗，虽然主瓣宽度较窄，但是旁瓣衰减不如汉明窗，所以谱泄漏比较严重。综合考虑来说汉明窗最好，它频谱泄露少，高频分量若，波动小，因而可以获得较平滑的谱。
3.为何分帧：语音具有短时平稳性，但是长期来看并不平稳，为了利用这种平稳性，所以需要进行分帧，大约10~30ms。

4.为何重叠：实现两帧之间的平滑过渡、保持其连续性。

5.语音端点检测方法（语音活动检测）——两级判决法

（1）第一级判决。①先根据语音短时能量的轮廓选取一个较高的门限T1，进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。②根据背景噪声的平均能量确定一个较低的门限T2，并从A点往左、从B点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD段就是用双门限方法根据短时能量所判断的语音段。

（2）第二级判决。以短时平均过零数为标准，从C点往左和D点往右搜索，找到短时平均过零数低于某个门限T3的两个点E和F，这便是语音段的起止点。门限T3是由背景噪声的平均过零数所确定的。
6.语音信号的数字化和预处理。为了将模拟语音信号转化为数字信号，需要经过取样和量化两个步骤，以得到时间和幅度均离散的信号。

取样是将时间上连续的信号离散化为样本序列，根据奈奎斯特采样定理，取样频率大于信号两倍宽度时，取样过程不会丢失信息，且取样信号可精确地重构原信号。若不满足取样定理，将产生频谱混叠，此时信号中的高频成分将产生失真。

取样后需要对信号进行量化，即将时间上离散而幅度仍然连续的波形再离散化。其过程是将整个幅度值分割为有限个区间，将落入同一区间的样本赋予相同的幅度值。若量化阶梯选择的足够小(如64)，则信号幅度从一个取样值到相邻取样值的变化可能非常大，常跨越很多量化阶梯。这样产生的量化噪声接近平稳白噪声过程。一般而言，8bit时的噪声自相关函数几乎为冲激函数，与白噪声的过程相一致。

总的来说语音信号处理系统框图如下

为了防止混叠失真和噪声干扰，所以要设置一个反混叠滤波器。平滑滤波器的作用是对重构的语音波形的高次谐波起平滑作用。

7.短时能量分析

短时平均能量的定义：

8.基音周期估值

基音周期是表征语音信号本质特征的参数，只有准确分析病体区域出语音信号的特征参数，才能进行语音编码、语音合成和语音识别等处理。基音周期估值最基本的方法主要有两种：基于短时自相关法的基因周期估值和基于短时平均幅度差函数的基音周期估值。