一种人机连续对话中基于语义层面判断回声的方法技术

技术编号：36088446 阅读：55 留言：0更新日期：2022-12-24 11:04

本发明专利技术公开了一种人机连续对话中基于语义层面判断回声的方法，收集回复请求和二次请求，数据处理得到整数序列对和音素序列对；音素序列对经过词嵌入层、LSTM编码以及L2规范化后，得到两个向量再点乘得到音素相似度；整数序列对经过词嵌入层编码、LSTM编码后再向量拼接后与音素相似度拼接得到新的特征向量，再经过两个Dense层、由softmax激活函数激活，得到回声预测结果；若音素相似度大于音素相似度阈值且回声预测结果为回声，则二次请求为回声，拒绝识别。本发明专利技术在语义层面判断回声，降低了由于回声引起的语音混淆和误识别的情况，提升用户使用体验；同时严格限制音素相似度的阈值，也可减少对正常请求的误识别。也可减少对正常请求的误识别。也可减少对正常请求的误识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种人机连续对话中基于语义层面判断回声的方法

[0001]本专利技术涉及自然语言处理
，具体的说，是一种人机连续对话中基于语义层面判断回声的方法。

技术介绍

[0002]随着AI技术的发展，越来越多的智能语音设备应用于商场、家庭等，为人们提供指引、答疑等服务。在服务型人机对话功能中，用户对机器发出语音请求，机器通过麦克风采集语音信息，并进行编码后传输给处理器进行数据处理，然后进行语音识别，再通过后续语义理解，经由扬声器回复应答此消息。一般情况下，上述语音请求和应答两部是分开进行的，但是，在全双工下，在扬声器播放语音回复的同时，麦克风也并没有关闭，在这种情况下，容易出现将扬声器的放音重新采集，被后续语义处理模块误认为是新的语音信息，引起语音混淆和误识别。而且，若在放音时屏蔽声音采集功能，首先由于回答语音长度不同，无法设置合适的屏蔽时间，其次是放音时无法采集使用者的二次实时语音信息和指令，大大降低使用者的使用体验和满意度。

技术实现思路

[0003]本专利技术的目的在于提供一种人机连续对话中基于语义层面判断回声的方法，用于解决现有技术中扬声器播放的声音被麦克风采集，误认为新的语音请求，导致语音误识别的问题。
[0004]本专利技术通过下述技术方案解决上述问题：
[0005]一种人机连续对话中基于语义层面判断回声的方法，包括：
[0006]步骤S100、收集回复请求以及与该回复请求的时间间隔在设定时间内的二次请求，将收集的两条语音数据进行数据处理后，作两种处理：1)直接进行序列...

【技术保护点】

【技术特征摘要】
1.一种人机连续对话中基于语义层面判断回声的方法，其特征在于，包括：步骤S100、收集回复请求以及与该回复请求的时间间隔在设定时间内的二次请求，将收集的两条语音数据进行数据处理后，作两种处理：1)直接进行序列转换，得到整数序列对；2)进行拼音转换、音素转换后再进行序列转换，得到音素序列对；步骤S200、音素序列对经过词嵌入层、LSTM编码以及L2规范化后，得到两个向量，将两个向量点乘得到音素相似度；整数序列对经过词嵌入层编码、LSTM编码后得到两个句子向量，通过向量拼接的方式整合两个句子向量，再通过全连接层，将所述音素相似度与两个句子向量拼接，得到一个新的特征向量，再对这个特征向量经过两个Dense层，最后由softm...

【专利技术属性】
技术研发人员：刘光毅，
申请(专利权)人：四川虹微技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人