【技术实现步骤摘要】
信息识别方法、装置、电子设备及存储介质
本申请涉及信息处理领域,具体而言,涉及一种信息识别方法、装置、电子设备及存储介质。
技术介绍
以网约车场景为例,为了进一步保证乘客的乘车安全,一般可以获取乘客在乘车过程中与司机之间的对话来判断司机和乘客之间是否产生矛盾,但是由于在乘车过程中获取到司机和乘客的对话通常参杂有其他的一些杂音,如司机在行程过程中开启了导航,导航会产生导航播放音,或者司机若在放歌或者在听广播,这些额外的声音也会参杂在司机和乘客的对话中,所以为了获取司机和乘客之间的对话来分析司机和乘客之间是否产生矛盾,需要将这些杂音进行剔除。目前是采用模板匹配的方式来识别这些杂音,例如,若要识别其中的导航音,则需预先人工配置大量的导航音模板,若模板量不足,可能无法对有的导航音进行正确匹配,准确率不高,并且在匹配时需将获取的数据与大量的模板进行逐个匹配,耗时太长,效率太低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种信息识别方法、装置、电子设备及存储介质,以提高信息识别的准确性和效率。第一方面,本申请实施例提供了一种信息识别方法,所述方法包括:获取多个待识别文本信息;获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;将每个概率值与预设概率值进行比对,获得比对结果;根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。在上述实现过 ...
【技术保护点】
1.一种信息识别方法,其特征在于,所述方法包括:/n获取多个待识别文本信息;/n获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;/n将每个概率值与预设概率值进行比对,获得比对结果;/n根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。/n
【技术特征摘要】
1.一种信息识别方法,其特征在于,所述方法包括:
获取多个待识别文本信息;
获取每个待识别文本信息为目标类型的文本信息的概率值,共获得多个概率值,所述目标类型的文本信息为除服务提供方在提供服务过程中与服务请求方之间产生的交互信息以外的信息;
将每个概率值与预设概率值进行比对,获得比对结果;
根据所述比对结果确定所述多个待识别文本信息中属于所述目标类型的目标待识别文本信息。
2.根据权利要求1所述的方法,其特征在于,获取每个待识别文本信息为目标类型的文本信息的概率值,包括:
通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,所述预设语言模型为预先将所述目标类型的多个训练文本信息输入语言模型进行训练获得的。
3.根据权利要求2所述的方法,其特征在于,通过预设语言模型获取每个待识别文本信息为目标类型的文本信息的概率值,包括:
通过预设语言模型提取每个待识别文本信息中的M个字,M为大于等于2的整数;
预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,i为大于等于1且小于M的整数;
基于每个待识别文本信息对应的M个概率值获取每个待识别文本信息为目标类型的文本信息的概率值。
4.根据权利要求3所述的方法,其特征在于,预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:
通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。
5.根据权利要求4所述的方法,其特征在于,通过所述预设语言模型中的softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值,包括:
通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量;
通过所述语言模型中的注意力模块获取所述M个字中第i个字与其他M-1个字之间的相似度作为所述第i个字的权重;
将所述第i个字的权重与所述第i个字对应的第i个数值向量进行加权,获得所述第i个字加权后的数值向量;
将所述第i个字加权后的数值向量输入所述softmax分类器预测所述M个字中第i个字后出现所述M个字中第i+1个字的概率值,以及预测第M个字后出现结束字符的概率值,共获得每个待识别文本信息对应的M个概率值。
6.根据权利要求5所述的方法,其特征在于,通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为数值向量,获得第i个字对应的第i个数值向量,包括:
通过所述预设语言模型中的嵌入表示模块将每个待识别文本信息中的第i个字转换为第一数值向量,且将第i个字对应的第i个拼音转换为第二数值向量;
将所述第一数值向量与所述第二数值向量进行拼接获得第i个字对应的第i个数值向量。
7.根据权利要求1-6任一所述的方法,其特征在于,获取多个待识别文本信息之前,还包括:
获取属于目标类型的多个训练文本信息;
将所述目标类型的多个训练文本信息输入语言模型中进行训练,获得训练后的预设语言模型以及所述预设语言模型输...
【专利技术属性】
技术研发人员:刘纯一,柳俊宏,薛艳云,王鹏,李奘,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。