信息识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25693261 阅读:15 留言:0更新日期:2020-09-18 21:04
本申请实施例提供一种信息识别方法、装置、电子设备及存储介质,属于信息处理领域。该方法通过获取每个待识别文本信息为目标类型的文本信息的概率值,然后将每个概率值与预设概率值进行比对,根据获得的比对结果确定多个待识别文本信息中属于目标类型的目标待识别文本信息,相比于现有技术中通过大量不同的模板去进行匹配准确率较低且耗时较长的问题,本方案可以有效提高信息识别的准确率和效率。

【技术实现步骤摘要】
信息识别方法、装置、电子设备及存储介质
本申请涉及信息处理领域,具体而言,涉及一种信息识别方法、装置、电子设备及存储介质。
技术介绍
以网约车场景为例,为了进一步保证乘客的乘车安全,一般可以获取乘客在乘车过程中与司机之间的对话来判断司机和乘客之间是否产生矛盾,但是由于在乘车过程中获取到司机和乘客的对话通常参杂有其他的一些杂音,如司机在行程过程中开启了导航,导航会产生导航播放音,或者司机若在放歌或者在听广播,这些额外的声音也会参杂在司机和乘客的对话中,所以为了获取司机和乘客之间的对话来分析司机和乘客之间是否产生矛盾,需要将这些杂音进行剔除。目前是采用模板匹配的方式来识别这些杂音,例如,若要识别其中的导航音,则需预先人工配置大量的导航音模板,若模板量不足,可能无法对有的导航音进行正确匹配,准确率不高,并且在匹配时需将获取的数据与大量的模板进行逐个匹配,耗时太长,效率太低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种信息识别方法、装置、电子设备及存储介质,以提高信息识别的准确性和效率。第一方面,本申请实施例提供了一种信息识别方法,所述方法包括:获取多个待识别文本信息;获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;将每个概率值与预设概率值进行比对,获得比对结果;根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。在上述实现过程中,可以通过获取每个待识别文本信息为目标类型的文本信息的概率值,然后将每个概率值与预设概率值进行比对,根据获得的比对结果确定多个待识别文本信息中属于目标类型的目标待识别文本信息,相比于现有技术中通过大量不同的模板去进行匹配准确率较低且耗时较长的问题,本方案可以有效提高信息识别的准确率和效率。可选地,获取每个待识别文本信息为目标类型的文本信息的概率值,包括:通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,所述预设语言模型为预先将所述目标类型的多个训练文本信息输入语言模型进行训练获得的。在上述实现过程中,由于预设语言模块是对语言模型通过目标类型的多个训练文本信息进行训练获得的,所以,预设语言模型可以有效识别出多个待识别文本信息中为目标类型的文本信息。可选地,通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,包括:通过预设语言模型提取每个待识别文本信息中的M个字,M为大于等于2的整数;预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,i为大于等于1且小于M的整数;基于每个待识别文本信息对应的M个概率值获取每个待识别文本信息为目标类型的文本信息的概率值。在上述实现过程中,通过预设语言模型获取每个待识别文本信息对应的M个概率值,然后基于该M个概率值获取每个待识别文本信息为目标类型的文本信息的概率值,所以,预设语言模型可以有效识别出多个待识别文本信息中为目标类型的文本信息。可选地,预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。在上述实现过程中,由于softmax分类器具有较好的分类预测效果,所以,通过预设语言模型中的softmax分类器获取每个字对应的概率值,可以获得较为准确的预测结果。可选地,通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量;通过所述语言模型中的注意力模块获取所述M个字中第i个字与其他M-1个字之间的相似度作为所述第i个字的权重;将所述第i个字的权重与所述第i个字对应的第i个数值向量进行加权,获得所述第i个字加权后的数值向量;将所述第i个字加权后的数值向量输入所述softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。在上述实现过程中,通过将每个字转换为数值向量后,再获取每个字对应的权重,然后将两者进行加权后再输入至softmax分类器进行概率预测,可以使得预设语言模型关注不同的上下文,提高了预设语言模型的表达能力,进而提高了预测效果的准确性。可选地,通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量,包括:通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为第一数值向量,且将第i个字对应的第i个拼音转换为第二数值向量;将所述第一数值向量与所述第二数值向量进行拼接获得第i个字对应的第i个数值向量。在上述实现过程中,通过获得每个字的拼音对应的数值向量,再将汉字的数值向量与拼音的数值向量进行拼接后获得的数值向量进行后续的计算,以此可提供更多的数据识别依据,可以为后续对目标类型的文本信息进行有效识别。可选地,获取多个待识别文本信息之前,还包括:获取属于目标类型的多个训练文本信息;将所述目标类型的多个训练文本信息输入语言模型中进行训练,获得训练后的预设语言模型以及所述预设语言模型输出的预设概率值。在上述实现过程中,通过预先对语言模型进行训练,获得预设语言模型,从而可以对目标类型的文本信息进行有效识别。第二方面,本申请实施例提供了一种信息识别装置,所述装置包括:文本信息获取模块,用于获取多个待识别文本信息;概率值获取模块,用于获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;比对模块,用于将每个概率值与预设概率值进行比对,获得比对结果;识别模块,用于根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。可选地,所述概率值获取模块,具体用于通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,所述预设语言模型为预先将所述目标类型的多个训练文本信息输入语言模型进行训练获得的。可选地,所述概率值获取模块,具体用于:通过预设语言模型提取每个待识别文本信息中的M个字,M为大于等于2的整数;预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及本文档来自技高网...

【技术保护点】
1.一种信息识别方法,其特征在于,所述方法包括:/n获取多个待识别文本信息;/n获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;/n将每个概率值与预设概率值进行比对,获得比对结果;/n根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。/n

【技术特征摘要】
1.一种信息识别方法,其特征在于,所述方法包括:
获取多个待识别文本信息;
获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;
将每个概率值与预设概率值进行比对,获得比对结果;
根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。


2.根据权利要求1所述的方法,其特征在于,获取每个待识别文本信息为目标类型的文本信息的概率值,包括:
通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,所述预设语言模型为预先将所述目标类型的多个训练文本信息输入语言模型进行训练获得的。


3.根据权利要求2所述的方法,其特征在于,通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,包括:
通过预设语言模型提取每个待识别文本信息中的M个字,M为大于等于2的整数;
预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,i为大于等于1且小于M的整数;
基于每个待识别文本信息对应的M个概率值获取每个待识别文本信息为目标类型的文本信息的概率值。


4.根据权利要求3所述的方法,其特征在于,预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:
通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。


5.根据权利要求4所述的方法,其特征在于,通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:
通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量;
通过所述语言模型中的注意力模块获取所述M个字中第i个字与其他M-1个字之间的相似度作为所述第i个字的权重;
将所述第i个字的权重与所述第i个字对应的第i个数值向量进行加权,获得所述第i个字加权后的数值向量;
将所述第i个字加权后的数值向量输入所述softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。


6.根据权利要求5所述的方法,其特征在于,通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量,包括:
通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为第一数值向量,且将第i个字对应的第i个拼音转换为第二数值向量;
将所述第一数值向量与所述第二数值向量进行拼接获得第i个字对应的第i个数值向量。


7.根据权利要求1-6任一所述的方法,其特征在于,获取多个待识别文本信息之前,还包括:
获取属于目标类型的多个训练文本信息;
将所述目标类型的多个训练文本信息输入语言模型中进行训练,获得训练后的预设语言模型以及所述预设语言模型输...

【专利技术属性】
技术研发人员:刘纯一柳俊宏薛艳云王鹏李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1