- 作者:大坝科技
- 发表时间:2018-11-09 17:23
- 来源:悟空话务电话机器人
如今智能语音设备或者机器人很多,如智能手机(例如Cortana,Siri,Ok Google,...),个人助理(例如Google Home,Amazon Echo,...),交互式语音应答(银行,应答机, ......),语音机器人' target='_blank'>语音机器人(电话机器人' target='_blank'>电话机器人、客服机器人、电销机器人,……),在生活中很常见,表现都让人惊喜。同时他们工作原理也大致相同。
一般智能语音助理或语音机器人工作原理大致如下:
第一阶段:
语音到文本的过程。信号源→设备(捕获音频输入)→增强音频输入→检测语音→转换为其他形式(如文本)
第二阶段:
响应过程。处理文本(如用NLP处理文本,识别意图)→操作响应。
在检测语音过程中,就包括分辨是否为语音信号,该过程会通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据。这一过程很重要,是否成功地识别语音。如果生成数字数据都是错误的,那么后期的处理响应那肯定是错的。这也是影响智能语音助理或语音机器人识别率的重要因素。
在这个过程,用于语音处理的技术是语音活性检测 (Voice activity detection,VAD),目的是检测语音信号是否存在。 VAD技术主要用于语音编码和语音识别。它可以简化语音处理,也可用于在音频会话期间去除非语音片段:可以在IP电话应用中避免对静音数据包的编码和传输,节省计算时间和带宽。
文本将与大家分享VAD技术,首先讲两个概念:
信噪比(缩写为SNR或S / N)是科学和工程中使用的一种度量,它将所需信号的电平与背景噪声电平进行比较。
SNR定义为信号功率与噪声功率之比,通常以分贝表示。比率高于1:1(大于0 dB)表示信号多于噪声。
窗口,研究信号源,我们将其分成滑动窗口或仅窗口。
编辑
能量检测器
能量检测器对于高SNR信号是有效的,但是当SNR下降直到它在1以下变得无效时失去效率。它也不能将语音与诸如冲击噪声(将笔放在桌子上),打字,空调或任何噪声之类的噪声区分开来。比人声更响亮或更响亮。
波形和频谱分析
在波形和频谱分析中,语音活动检测利用语音的已知特征。在该方法中应用VAD比基于能量的解决方案更加计算密集,但是能够更好地检测非平稳噪声和低SNR场景中的噪声。
版权声明:本文为悟空话务机器人(杭州大坝科技有限公司)原创文章,未经允许不得转载。 http://www.hzdaba.com/xw/2018/1109/453.html