基于DSP的音频会议信号合成算法研究

作者：李超浙江万里学院智能控制技术研究所时间：2008-06-06来源：电子技术应用收藏

　　随着在数字信号处理(DSP)算法和芯片处理能力以及通信网络结构优化等方面的不断发展，现代化通信已经迅速普及。音频会议是众多通信系统的必备功能。有多个用户参与的音频会议，最简单的模式可以使用令牌控制下的互斥模式，使只有拥有发言权的那个与会者才可以讲话。在这种模式下，每个与会者某一时刻只能听到一路音频信号，这种“半双工”模式对于音频会议是不方便和不实际的。

本文引用地址：http://www.amcfsurvey.com/article/83866.htm

　　真正的电话会议应当仿真多个与会者在一个会议室进行对话的情形。但是由于与会终端在物理上并不在一起，而每个终端只有一套音频输出设备(功放+音箱)，要同时传送给每个终端的音频流也只能使用一路信道。为使每个终端同时接收多个与会者的声音，必须采取多路音频合成方案。电话会议的特点是会场使用麦克风和扬声器，这种方式很容易造成回波干扰和啸叫。一般会议信号处理算法主要关注的也是这个方面，通常采用回波抵消的方法。但是这种方式对于会议信号的处理并不是最完善和有效的[1]。经过研究，采用有无声检测、归一化定标、自适应回波抵消算法合成技术则能够很真实地实现会议仿真效果。

　　1 会议信号合成实现方案

　　1.1 会议信号合成的合理性和必要性

　　音频流不象典型的视频流一样在空间/时间域占有惟一的位置，在同一时间和位置的信号元素叠加是没有任何意义的。但人耳可以感知在同一空间/时间播放多个音频流。这就是会议信号合成的合理性和必要性。通过会议信号的合成，将多路音频流的输入经过处理后，提供一个单输出信道输出合成音频。

　　1.2 会议信号合成的关键因素

　　当多个音频源在一个空间播放时，人耳听到的声波是各个声源声波的线性叠加，这正是模拟音频信号合成的基础。该事实表明数字化后的语音进行合成也应当使用线性叠加的方式。假设有n路输入音频流进行混音，Xi(t)是t时刻的第i路输入语音的线性样本，则t时刻的混音值为：

　　语音信号是连续的、时间要求严格的一种流媒体信号，它在时域上具有短时平稳的特征。对语音信号进行处理的一个基本概念就是对语音信号进行采样，得到的语音样本以缓冲区为单位进行处理，即对语音样本分帧。语音处理的很多概念都是基于语音帧的，比如有声/无声、能量、自相关等。语音帧的长度一般采用10～20ms。数字音频的重要参数是采样率，各路输入音频流合成的前提应当是使用相同的采样率。

　　随着需要合成的语音信道数量的增加，在不采取任何附加预防措施的情况下，一些并非会议有效信号(如声反馈和噪音)就会累积起来导致质量劣化,让人无法接受。特别是由本地扩声系统产生的电声反馈引起的回音造成了再生混响，其结果严重地影响了语音的清晰度。更为致命的是当声反馈非常严重时会产生自激，使整个通信系统无法正常工作。所以必须对每个终端的输入音频进行有无声检测和声反馈抑制处理。

　　语音合成时应注意求和样本的动态范围，这引出了归一化定标问题。数字音频波形理论定义，定标就是检查某个选定的帧，找到振幅峰值，并由此调整被选帧整体的音量，以便使允许的振幅值最大，且不会溢出。语音合成是对数字波形进行的一种编辑，尤其需要解决归一化定标问题。

　　2 会议信号合成关键技术研究

　　2.1 自适应回波抵消算法

　　数字回波抵消器的理论基础是自适应滤波器技术。随着DSP的快速发展，数字回波抵消器已能很好地在DSP上加以应用。在电话会议中产生回波的最主要原因是远端会议信号经本地扬声系统在室内产生的声场回馈至传声器引起回音造成的再生混响。

　　回波抵消器必须精确地估计回波路径特性并快速适应其变化，根据电话会议的特点，使用干涉抵消模型是最佳的方式。该模型是一个具有二个输入端的自适应滤波器，如图1所示。它将本地的传声器输出作为原始信号，而将本地扬声器的输入作为参考信号。经过自适应回波抵消处理后，能有效地抑制本地传声器的输出经室内声场馈至传声器的电声反馈(回音)，从而实现自适应声反馈(回音)的抵消。

　　回波抵消的核心就是自适应滤波器算法。常见的算法包括SDA算法和LMS算法。由于SDA算法中梯度的计算涉及到矩阵，并不适合实际应用。通过其派生的LMS算法简单实用，计算效率高。TI公司的DSP芯片TMS320C54X有专门的LMS指令用于加速自适应滤波算法。在实际应用中，还可以在LMS算法的基础上得到修改滤波器系数的算法：