一种人机连续对话中基于语义层面判断回声的方法技术

技术编号:36088446 阅读:55 留言:0更新日期:2022-12-24 11:04
本发明专利技术公开了一种人机连续对话中基于语义层面判断回声的方法,收集回复请求和二次请求,数据处理得到整数序列对和音素序列对;音素序列对经过词嵌入层、LSTM编码以及L2规范化后,得到两个向量再点乘得到音素相似度;整数序列对经过词嵌入层编码、LSTM编码后再向量拼接后与音素相似度拼接得到新的特征向量,再经过两个Dense层、由softmax激活函数激活,得到回声预测结果;若音素相似度大于音素相似度阈值且回声预测结果为回声,则二次请求为回声,拒绝识别。本发明专利技术在语义层面判断回声,降低了由于回声引起的语音混淆和误识别的情况,提升用户使用体验;同时严格限制音素相似度的阈值,也可减少对正常请求的误识别。也可减少对正常请求的误识别。也可减少对正常请求的误识别。

【技术实现步骤摘要】
一种人机连续对话中基于语义层面判断回声的方法


[0001]本专利技术涉及自然语言处理
,具体的说,是一种人机连续对话中基于语义层面判断回声的方法。

技术介绍

[0002]随着AI技术的发展,越来越多的智能语音设备应用于商场、家庭等,为人们提供指引、答疑等服务。在服务型人机对话功能中,用户对机器发出语音请求,机器通过麦克风采集语音信息,并进行编码后传输给处理器进行数据处理,然后进行语音识别,再通过后续语义理解,经由扬声器回复应答此消息。一般情况下,上述语音请求和应答两部是分开进行的,但是,在全双工下,在扬声器播放语音回复的同时,麦克风也并没有关闭,在这种情况下,容易出现将扬声器的放音重新采集,被后续语义处理模块误认为是新的语音信息,引起语音混淆和误识别。而且,若在放音时屏蔽声音采集功能,首先由于回答语音长度不同,无法设置合适的屏蔽时间,其次是放音时无法采集使用者的二次实时语音信息和指令,大大降低使用者的使用体验和满意度。

技术实现思路

[0003]本专利技术的目的在于提供一种人机连续对话中基于语义层面判断回声的方法,用于解决现有技术中扬声器播放的声音被麦克风采集,误认为新的语音请求,导致语音误识别的问题。
[0004]本专利技术通过下述技术方案解决上述问题:
[0005]一种人机连续对话中基于语义层面判断回声的方法,包括:
[0006]步骤S100、收集回复请求以及与该回复请求的时间间隔在设定时间内的二次请求,将收集的两条语音数据进行数据处理后,作两种处理:1)直接进行序列转换,得到整数序列对;2)进行拼音转换、音素转换后再进行序列转换,得到音素序列对;
[0007]步骤S200、音素序列对经过词嵌入层、LSTM编码以及L2规范化后,得到两个向量,将两个向量点乘得到音素相似度;
[0008]整数序列对经过词嵌入层编码、LSTM编码后得到两个句子向量,通过向量拼接的方式整合两个句子向量,再通过全连接层,将所述音素相似度与两个句子向量拼接,得到一个新的特征向量,再对这个特征向量经过两个Dense层,最后由softmax激活函数激活,得到回声预测结果;
[0009]步骤S300、将音素相似度与设定的相似度阈值进行比较,若音素相似度大于相似度阈值,且回声预测结果为回声,则判断二次请求为该回复请求的回声,拒绝识别,否则,正常识别二次请求。
[0010]所述整数序列对经过词嵌入层编码时,加入mask遮盖:前向传播时直接对整数序列对中的0遮盖,后向传播时先将有意义的反转再对整数序列对中的0遮盖,填充0不变。
[0011]将收集的两条语音数据进行数据处理为将原因数据中除数字、中英文外的其他字
符和标点符号剔除。
[0012]本专利技术与现有技术相比,具有以下优点及有益效果:
[0013]本专利技术在语义层面判断回声,基于两个句子的音素相似度和对其语义的分析分类,两者相互修正结果和判断。通过对判断出为回声的结果,不进行后续的语音答复,降低了由于回声引起的语音混淆和误识别的情况,提升用户在连续对话下的使用体验;同时严格限制音素相似度的阈值,也可减少对正常请求的误识别。
附图说明
[0014]图1为本专利技术的流程图。
具体实施方式
[0015]下面结合实施例对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。
[0016]实施例1:
[0017]结合附图1所示,一种人机连续对话中基于语义层面判断回声的方法,包括:
[0018]1、收集、整理回声数据,分析数据特征,得到训练语料
[0019]从现有连续对话下的用户数据中筛选出回声识别到的数据,构成句子对(上轮回复与本轮请求),分析数据特征,这里不考虑两次请求时间差的问题,单从文本分析回声数据具备的特征。从数据中查看回声数据具备的基础特征即本次请求与上轮回复语读音上高度相似,再从发音相似的数据中剔除不是回声的数据,即上轮回复与本轮请求之间符合“同义句”或者是“对话”、“相反”等关系,如:
[0020]a.应接上文或回答:“叫哥哥”—“哥哥”,“你喜欢我吗”—“我喜欢你”[0021]b.表达与上文相反意思:“他不傻”—“他傻”[0022]c.同义句:“帮我开一下这个”—“帮我打开这个”[0023]d.其他的对话情况:“我不喜欢这个”—“我也不喜欢这个”[0024]2、数据预处理
[0025]将句子对做统一处理(全角转半角,小写转大写,去除汉字、英文、数字外的标点符号以及特殊字符),后将句子对转换为音素(以国际音标为准),同时对句子本身和其音素进行序列转换,一个句子就有两个正数序列——按音素构成的序列即音素序列对、按字构成的序列即整数序列对。
[0026]3、构建模型,包括音素相似度部分和语义分析部分,输入训练语料,训练模型
[0027]模型分为两部分,第一部分是音素相似度的判断,判断是否读音相近,输入的音素序列对通过嵌入层(word embedding)、LSTM、L2范化、点积(Dot)之后,输出其之间的相似度,同时将这部分相似度作为一部分特征,用于修正语义相关性部分的解析结果;第二部分是语义相关性的分析,将句子序列对通过嵌入层、LSTM、全连接层拼接(concatenate)、线性变换(Dense)之后,得到一个语义相关性特征向量,将这个向量与音素相似度的结果拼接后,经过全连接层,输出最终的预测结果。两部分输出结果相结合,音素相似度高的同时句子对之间的相关性不强,则认为是回声正样本。
[0028]例如:
[0029]音素相似度部分:
[0030]针对音素序列对:A=[a0,a1,a2…
a
n
],B=[b0,b1,b2…
b
n
],n为限定的序列长度,经过第一层嵌入层、以及LSTM编码以及L2范化后,可以得到两个向量代表其句子音素:
[0031]X
A
=(x
a0
,x
a1
,x
a2

x
am
),X
B
=(x
b0
,x
b1
,x
b2

x
bm
)
[0032]并且因为其经过了L2规范化,则有X
A
·
X
B
=cos<X
A
,X
B
>,由于后续标签为二分类,相似即为1,不相似为0,因此,在将两个向量点乘之后,训练时,对其进行一个设定好阈值的放大:
[0033][0034]其中,为设定的相似度阈值(本专利技术实现中取的0.85),最终获得一个音素的相似度结果。
[0035]语义相关性部分:
[0036]针对整数序列对:A

=[a
′0,a
′1,q
′2…
a

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机连续对话中基于语义层面判断回声的方法,其特征在于,包括:步骤S100、收集回复请求以及与该回复请求的时间间隔在设定时间内的二次请求,将收集的两条语音数据进行数据处理后,作两种处理:1)直接进行序列转换,得到整数序列对;2)进行拼音转换、音素转换后再进行序列转换,得到音素序列对;步骤S200、音素序列对经过词嵌入层、LSTM编码以及L2规范化后,得到两个向量,将两个向量点乘得到音素相似度;整数序列对经过词嵌入层编码、LSTM编码后得到两个句子向量,通过向量拼接的方式整合两个句子向量,再通过全连接层,将所述音素相似度与两个句子向量拼接,得到一个新的特征向量,再对这个特征向量经过两个Dense层,最后由softm...

【专利技术属性】
技术研发人员:刘光毅
申请(专利权)人:四川虹微技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1