文本处理方法、设备、存储介质及程序产品技术

技术编号:31512777 阅读:11 留言:0更新日期:2021-12-22 23:54
本申请实施例提供一种文本处理方法、设备、存储介质及程序产品,将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果。由于目标拒识模型是通过字符特征和全局位置特征训练得到的,其可以准确的获取待处理文本中各字符的含义,以及各字符在待处理文本中的位置关系,从而根据含义和位置关系准确的得出待处理文本所表达的含义,进而准确的推断待处理文本是否为拒识文本,保障人机交互的有效性和流畅性,提升交互体验。提升交互体验。提升交互体验。

【技术实现步骤摘要】
文本处理方法、设备、存储介质及程序产品


[0001]本申请实施例涉及人工智能
,尤其涉及一种文本处理方法、设备、存储介质及程序产品。

技术介绍

[0002]在人机交互过程中,常常会由于噪声、识别错误、表述不清、无关闲聊等原因而产生无意义的语句,严重影响了人机交互的有效性和流畅性。
[0003]相关技术中,可以通过拒识技术来筛选出交互过程中有意义的语句,同时剔除无意义语句,即拒识文本,从而避免对无意义语句进行识别。
[0004]然而,实现本申请过程中,专利技术人发现现有技术中至少存在如下问题:目前的拒识技术通常只考虑语句中的文字字符的局部相关性,其识别出来的拒识文本的准确性较低。

技术实现思路

[0005]本申请实施例提供一种文本处理方法、设备、存储介质及程序产品,以提高对拒识文本识别的准确性,提升语音交互体验。
[0006]第一方面,本申请实施例提供一种文本处理方法,包括:获取待处理文本,待处理文本中包含多个字符;将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征 ,并根据字符特征和全局位置特征输出待处理文本对应的分类结果,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
[0007]在一种可能的设计中,目标拒识模型包括输入层、字嵌入层和位置嵌入层;通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,包括:通过输入层,获取待处理文本中各字符对应的独热编码;通过字嵌入层,基于各字符对应独热编码,获取各字符的基础字符特征作为字符特征,基础字符特征用于指示字符的含义;通过位置嵌入层,根据各字符对应独热编码,获取各字符的全局位置特征,全局位置特征用于指示字符在待处理文本中的顺序。
[0008]在一种可能的设计中,目标拒识模型还包括对抗嵌入层;通过字嵌入层获取待处理文本中每个字符的基础字符特征之后,还包括:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。在一种可能的设计中,在一种可能的设计中,根据字符特征和全局位置特征输出待处理文本对应的分类结果,包括:根据字符特征和全局位置特征,获取待处理文本的文本特征;从文本特征中提取与待处理文本对应的信息特征;根据信息特征获得待处理文本的分类结果。
[0009]在一种可能的设计中,目标拒识模型还包括第一融合层;根据字符特征和全局位置特征,获取待处理文本的文本特征,包括:通过第一融合层,融合各字符对应的字符特征和全局位置特征,获得各字符对应的融合特征;根据各字符对应的融合特征,获得待处理文
本的文本特征。
[0010]在一种可能的设计中,目标拒识模型还包括卷积层、最大池化层和第二融合层;从文本特征中提取与待处理文本对应的信息特征,包括:通过卷积层,基于不同采样尺寸对待处理文本的文本特征进行特征提取,获得待处理文本在不同采样尺寸对应的目标特征;通过最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征,获得待处理文本的信息特征。
[0011]在一种可能的设计中,目标拒识模型还包括:最小池化层;通过最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征和最小值特征,获得待处理文本的信息特征。
[0012]在一种可能的设计中,目标拒识模型还包括全连接层和决策层;根据信息特征获得待处理文本的分类结果,包括:通过全连接层,基于信息特征,确定待处理文本为拒识文本的概率值;通过决策层,基于概率值和阈值概率,输出待处理文本对应的分类结果。
[0013]第二方面,本申请实施例提供一种文本处理设备,包括:获取模块,用于获取待处理文本,待处理文本中包含多个字符;处理模块,用于将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
[0014]第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器和存储器;存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上第一方面以及第一方面各种可能的设计的文本处理方法。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计的文本处理方法。
[0016]第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计的文本处理方法。
[0017]本实施例提供的文本处理方法、设备、存储介质及程序产品,获取待处理文本,待处理文本中包含多个字符;将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果。在识别过程中,将待处理文本中各字符的全局位置特征作为输入特征进行识别,可以充分考虑各字符之间的相对位置关系,从而提升识别结果的准确性。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的文本处理方法的场景示意图;图2为本申请实施例提供的文本识别方法的流程示意图一;图3为本申请实施例提供的文本识别方法的流程示意图二;图4为本申请实施例提供的目标拒识模型的结构及原理示意图一;图5为本申请实施例提供的目标拒识模型的结构及原理示意图二;图6为本申请实施例提供的文本处理设备的结构示意图;图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]在人机交互过程中,常常会由于噪声、识别错误、表述不清、无关闲聊等原因而产生无意义的语句,严重影响了人机交互的有效性和流畅性。
[0022]相关技术中,可以通过拒识技术来筛选出交互过程中有意义的语句,同时剔除无意义语句,即拒识文本,从而避免对无意义语句进行识别。然而,经专利技术人研究发现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本,所述待处理文本中包含多个字符;将所述待处理文本输入目标拒识模型,通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,并根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,所述分类结果用于指示所述待处理文本是否为拒识文本,所述目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。2.根据权利要求1所述的文本处理方法,其特征在于,所述目标拒识模型包括输入层、字嵌入层和位置嵌入层;所述通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,包括:通过所述输入层,获取所述待处理文本中各字符对应的独热编码;通过所述字嵌入层,基于各所述字符对应独热编码,获取各所述字符的基础字符特征作为所述字符特征,所述基础字符特征用于指示字符的含义;通过所述位置嵌入层,根据各所述字符对应独热编码,获取各所述字符的全局位置特征,所述全局位置特征用于指示字符在所述待处理文本中的顺序。3.根据权利要求2所述的文本处理方法,其特征在于,所述目标拒识模型还包括对抗嵌入层;在通过所述字嵌入层获取所述待处理文本中每个字符的基础字符特征之后,还包括:通过所述对抗嵌入层,在各所述字符的基础字符特征中添加扰动特征,获得各所述字符的字符特征。4.根据权利要求1

3任一项所述的文本处理方法,其特征在于,所述根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,包括:根据所述字符特征和所述全局位置特征,获取所述待处理文本的文本特征;从所述文本特征中提取与所述待处理文本对应的信息特征;根据所述信息特征获得所述待处理文本的分类结果。5.根据权利要求4所述的文本处理方法,其特征在于,所述目标拒识模型还包括第一融合层;所述根据字符特征和所述全局位置特征,获取所述待处理文本的文本特征,包括:通过所述第一融合层,融合各所述字符对应的字符特征和全局位置特征,获得各所述字符对应的融合特征;根据各所述字符对应的融合特征,获得所述待处理文本的文本特征。6.根据权利要求4所述的文本处理方法,其特征在于,所述目标拒识模型还包括卷积层...

【专利技术属性】
技术研发人员:米良黄海荣李林峰孔晓泉
申请(专利权)人:湖北亿咖通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1