方案背景
如何在嘈杂的环境中(类如厨房/客厅/健身房的环境中)获取干净的人声,是电视/机顶盒/Sound bar等智能设备做语音交互和语音通话必须要解决的问题。然而在现实生活中,嘈杂的环境中,有多种噪声的存在,也阻碍了智能设备有效获取人声:这些噪声包含了:
- 设备自身播放的声音,如电视/机顶盒/Sound bar等智能设备正在播放音乐
- 环境中的稳态和非稳态的,发散的噪声,如风扇/空调等基础噪声
- 环境空间内的点噪声,如固定在某个位置的电视发出的声音等噪声
除了上述噪声,由于Sound bar/电视自身播放声音过大,会导致难以准确有效地获取有用的发言人声音。
一个高性能的语音接口方案在这种设备中,显得尤为重要。高性能语音接口方案,除了解决干扰的噪声问题,可同时提供远距离拾音和语音打断(Barge-in),这样的前端语音方案便可输出干净且有效的人声进行语音交互(ASR)和会议通话(Communication)。
方案概要
P3610-2MIC 是一款智能、紧凑的双麦克风系统,具有先进的信号优化功能,可同时用于语音识别和电话会议,为这些任务提供专用声道。该设备由 XMOS XVF3610 控制器提供动力,拥有三种降噪算法,可在嘈杂环境中实现清晰的语音,并具有自动增益控制功能,可在 5 米范围内有效拾音。它的远场拾音和语音闯入功能可确保高质量的电话会议。它适用于各种应用,包括会议系统、电视、智能音箱和机器人。
P3610-2MIC 采用 USB Type-C 端口设计,可在不同平台上使用,由于体积小巧,可轻松集成到中小型设备中。
- 语音识别(ASR,Automatic Speech Recognition ):提供给语音识别云端引擎进行识别使用;ASR音频前端处理主要是为了提高云端语音识别率,所以其处理后,频谱会偏向饱满,这样尽大可能减小了音频失真。同事增强了人声,抑制了背景声和噪声。
- 会议通话(Comms, communication and calling):提供给用户进行会议语音通话使用;Comms音频前端处理主要是为了提高人声的清晰度,同时做了较大的背景声和噪声抑制,频谱较为干净,但相对ASR输出有较大的失真,不建议做语音识别用。
P3610-2MIC 语音接口方案能够处理上文所述的3种噪声,和提供2种前端方向声音输出,极大的满足了多种场景和多种设备上的使用。
P3610-2MIC 语音接口的主控芯片XVF3610内部集成了USB 2.0 PHY芯片,可以通过USB(UAC1.0协议)接口将处理后的语言信号传输给给智能设备(Host主机),其USB也完善了众多HID report协议,类如keyboard、 telephone以及consumer。在标准的安卓和Linux设备中,能够很好体现人机接口种的语音接口作用。
算法框图
算法模块的描述如下:
- AEC回音消除 :消除设备自身的播放的声音,以实现能够语音打断和提高SNR
- IC噪声源消除:扫描设备所在的空间内的声音情况并且消除房间所有的点噪声
- NS噪声抑制:去除所有的背景(包含发散的和反射的)噪声
- ADE自动时延估算:动态调整音频参考信号,实现流畅、实时的语音打断
如上所述,在P3610-2MIC 的IC噪声源消除环节中,将有效地去除环境中的点噪声。而在自动延时估算算法环节,则能够更加灵活协助的AEC参考信号的变动,以增大智能设备外置扬声器的可能性。P3610-2MIC 尤其针对ASR的前端处理进行优化,以极大提高语言识别率和语音打断(barge-in)的成功率,减小了适应各大语言识别引擎的调试工作量。
经过上述的算法流程后,其输出的声音效果示例如下:
硬件框图
P3610-2MIC 的主控芯片XVF3610为QFN-60封装,于2021年发布,其配套提供了2套免开发的标准固件,分别针对使用I2S集成到主板的固件和通过USB插入到主板的固件,其硬件框图如下:
其中:
- 使用2个PDM数字麦克风直连主控XVF3610
- 外置QSPI Flash ,用于存储XVF3610的固件
- XVF3610可使用I2S/USB连接host主机进行声音信号传输
在实际的应用场景中,集成了XVF3610的机顶盒主板部分的应用框图如下,其中XVF3610以I2S方式与机顶盒主控连接:
关于AEC参考信号的选取方式,XVF3610灵活提供了非常灵活多种的方式
- 通过USB UAC的方式,在Host主机中以USB接口的方式为XVF3610提供AEC的参考信号
- 通过I2S的方式,Host可以直接通过I2S为XVF3610提供参考信号;另外XVF3610可以增加ADC(ES7243)的方式接入模拟信号作为其AEC的参考信号。
方案特性
主控芯片
- XVF3610-QF60B-C, 免软件开发
- QFN-60封装
- 300mW功耗
音频接口
16KHZ/48kHz的音频采样率
- USB Audio Class 1.0(UAC 1.0)
- I2S master/slave
- 2个PDM数字麦克风
音频算法
- 立体声AEC
- IC 干扰源噪声消除
- NS 噪声抑制
- AGC 自动增益
- ADEC 自动延时估算
应用场景
P3610-2MIC作为高性价比的语音接口方案,在智能设备中不仅可用于语音交互(ASR),还可用于语音通话(Communication)。尤其是在ASR前端处理方面进行了专项优化,显著提升了语音打断和语音识别的性能。结合其所有特性,推荐用户将其应用于以下或类似的智能设备中: