一种金融设备智能语音交互方法技术

技术编号:32022100 阅读:19 留言:0更新日期:2022-01-22 18:43
本发明专利技术公开了一种金融设备智能语音交互方法,包括如下步骤:信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;根据公式1确定播放音频信号:其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n是对音频信号进行离散分析的采样频率;确定播放声音响度为基础声音响度与响度衰减量之和,根据播放声音响度对设备进行设置,实现音量大小调节。实现音量大小调节。实现音量大小调节。

【技术实现步骤摘要】
一种金融设备智能语音交互方法


[0001]本专利技术涉及金融自助终端
,尤其涉及一种金融设备智能语音交互方法。

技术介绍

[0002]智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。语音交互最大的问题是不够精准。首先是受环境的影响,导致语音识别的准确率较低;再者就是表达一个意图的说法千变万化,更本无法覆盖全;最后就是语音交互是一个开放域的事情,需要处理很多意外的情况。这里还没有考虑有些场景不适合语音交互,比如会议场景,家人睡觉的时候等。
[0003]随着金融自助设备和客服机器人的广泛应用,现有设备在交互过程中音量恒定,在复杂环境中,环境声音会影响使用者收听效果,这些问题都一定程度上影响了客户体验的满意度。

技术实现思路

[0004]本专利技术的目的是针对现有技术中播放声音恒定的技术缺陷,而提供一种金融设备智能语音交互方法,在嘈杂环境中,使用者位置不同,设备自动调节设备播放音量大小,提高客户在智能设备语音交换过程中的满意度。
[0005]为实现本专利技术的目的所采用的技术方案是:一种金融设备智能语音交互方法,其特征在于,包括如下步骤:(1)播放音频信号的获取:信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;根据公式1确定播放音频信号,;公式1卷积公式其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n是对音频信号进行离散分析的采样频率,m取值为0

n,且为整数;根据噪声信号d1(n)和预估用户听到的信号s3(n),通过反卷积得到播放音频信号,通过叠加噪声信号,起到降噪功能;(2)播放声音响度的获取确定播放声音响度为基础声音响度与响度衰减量之和;(3)通过播放音频信号确定设备播放的信息内容,通过播放声音响度确定设备播放的音量大小,实现智能语音交互。
[0006]作为优选的,采用ICA盲源分离算法,对音频信号进行分离。
[0007]作为优选的,喇叭到用户的距离r的确定步骤如下:通过红外传感器,判断设备前方是否为活体,若为活体,通过超声波传感器,测量用户与设备间的距离;通过麦克风阵列进行音频信号采集,得到用户与设备的相对角度;根据超声波传感器到用户的距离,用户与设备的相对角度,以及超声波传感器、麦克风阵列、喇叭之间的相对距离,得到喇叭到用户的距离r。
[0008]作为优选的,设备在被唤醒后,开始音频信号采集;对音频信号进行分帧处理,当停顿时间超过设定时间阈值,判为停顿,进行音频信号分离;唤醒方式包括唤醒词唤醒或红外线触发唤醒。
[0009]作为优选的,设备在被唤醒后,采集到第一次音频信号,分离得到的噪声信号为本次语音交互中每次确定播放音频信号时用到的噪声信号;在一次语音交互中,每当检测到用户位置变化超过设定距离阈值或者业务环境噪声响度超过设定响度阈值,则对最新得到的音频信号进行分离,重新得到噪声信号,作为本次语音交互中接下来每次确定播放音频信号时用到的噪声信号。
[0010]作为优选的,基础声音响度为固定已知值,响度衰减量的计算方法如下:公式2其中,r是喇叭到用户的距离。
[0011]作为优选的,每当检测到用户位置变化超过设定距离阈值,对响度衰减量重新计算,根据新的播放声音响度对设备进行设置,实现音量大小的实时调节。
[0012]作为优选的,播放声音响度最大值设为基础声音响度的二倍本专利技术的有益效果在于:1.本专利技术给出了一种噪声不同、使用者位置不同,设备可以自动调节播放音量大小的方法,提高了客户在智能设备语音交换过程中的满意度。
[0013]2.根据每次采集到的音频信号,并分离为语音信号和噪声信号,每次采集到的音频信号的不同,语音信号和噪声信号也不同,实现了针对不同用户分别进行音频信号调节的目的,使得每个用户都能听到最舒服、最合适的声音。
[0014]3.当客户不与设备交流时,通过设备的麦克风阵列,直接测的信号为噪声信号。客户与设备交流时,通过设备的麦克风阵列,对混有噪声的音频信号进行采集:y1(n)=s1(n)+d1(n),y(n)为采集的音频信号,s1(n)为语言信号,d1(n)为噪声信号。先对混有噪声的音频信号进行消噪处理,采用ICA盲源分离算法,对音频信号进行分离,分别得到语音信号s1(n)和噪声信号d1(n),通过降噪处理使语音信号转化成文本信息正确率提高。
附图说明
[0015]附图1本专利技术的流程示意图。
具体实施方式
[0016]以下结合具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0017]一种金融设备智能语音交互方法,包括如下步骤:
(1)播放音频信号的获取:信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。设备将答案文本合成的回答语音信号也是一种音频信号,也可以说是一种声波,声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。现有技术中,设备直接将答案文本合成为回答语音信号,就通过喇叭播放出去,这样的回答语音信号作为一种声波,频率、幅度和相位都是固定的,都是设备最初设定的值,因此无论用户现场是什么样的环境,声波都是一样的,这样就造成不同噪声环境中,虽然设备播放的音频信号是一样的,但是用户听到的音频信号却是不一样的。在信号处理里,有用的叫信号,没用的叫噪声,而本申请将噪声信号也进行了利用。
[0018]鉴于此,本专利技术设计的技术方案中,将采集并分离出的噪声信号作为一个计算已知量;设备发出的文字,通过语言合成,合成的语音信号为s2(n);s3(n)频率和相位角与s2(n)一样,振幅通过公式2和基础响度计算得到,得到s3(n),其是预估用户听到的声音信号。公式1中s3(n)和d1(n)都是已知量,因此可以进行反卷积处理,通过叠加噪声信号,确定了f(n),在此需要说明下,振幅跟响度有关,在下面播放声音响度的获取中得到振幅,从而确定播放响度。
[0019]每次设备唤醒后对音频信号的首次采集,得到的噪声信号,是本次交互中的公式1卷积计算的已知量,当设备再次被唤醒,噪声信号又发生了变化,因此保证了每次交互过程中噪声信号作为计算的已知量都是根据当时的实际情况得到的。
[0020]根据公式1确定播放音频信号:公式1其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n是对音频信号进行离散分析的采样频率,m取值为0

n,且为整数。...

【技术保护点】

【技术特征摘要】
1.一种金融设备智能语音交互方法,其特征在于,包括如下步骤:(1)播放音频信号的获取:信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;根据公式1确定播放音频信号:公式1卷积公式其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n是对音频信号进行离散分析的采样频率,m取值为0

n,且为整数;根据噪声信号d1(n)和预估用户听到的信号s3(n),通过反卷积得到播放音频信号,通过叠加噪声信号,起到降噪功能;(2)播放声音响度的获取确定播放声音响度为基础声音响度与响度衰减量之和;(3)通过播放音频信号确定设备播放的信息内容,通过播放声音响度确定设备播放的音量大小,实现智能语音交互。2.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,采用ICA盲源分离算法,对音频信号进行分离。3.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,喇叭到用户的距离r的确定步骤如下:通过红外传感器,判断设备前方是否为活体,若为活体,通过超声波传感器,测量用户与设备间的距离;通过麦克风阵列进行音频信号采集,得到用户与设备的相对角度;根据...

【专利技术属性】
技术研发人员:田立刚张云峰张海华魏巍杨孟超
申请(专利权)人:恒银金融科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1