【技术实现步骤摘要】
一种文本的处理方法、装置、电子设备及存储介质
本申请涉及自然语言处理
,具体而言,涉及一种文本的处理方法、装置、电子设备及存储介质。
技术介绍
在自然语言处理
,实体表示具体事物、个别主体、现象的支持者等含义,比如,人名、组织机构等,在文本的处理过程中,由于实体能够表示文本中的多种对象,因此,可以通过对文本中实体的识别,确定文本的主要内容。现阶段,通常使用开源的实体提取模型对文本中的实体进行识别,比如,CRF模型,但是现有的实体提取模型抗干扰能力差,在存在干扰的情况下,实体提取模型识别出的实体的准确度低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种文本的处理方法、装置、电子设备及存储介质,使用添加随机特征向量的扰动样本文本对文本处理模型进行训练,提高了文本处理模型的稳定性,在存在干扰时,实体提取模型输出的字符类别的准确度高,进而提高了识别出的实体以及实体类别的准确度。第一方面,本申请实施例提供了一种文本的处理方法,所述处理方法包括:获取待处理文本中各个字符的
【技术保护点】
1.一种文本的处理方法,其特征在于,所述处理方法包括:/n获取待处理文本中各个字符的字符特征向量;/n将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;/n基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。/n
【技术特征摘要】
1.一种文本的处理方法,其特征在于,所述处理方法包括:
获取待处理文本中各个字符的字符特征向量;
将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符类别;其中,所述文本处理模型是利用添加随机特征向量的扰动样本文本训练得到的;
基于所述待处理文本中各个字符的字符类别,从所述待处理文本中提取多个实体,并确定各个实体的实体类别。
2.根据权利要求1所述的文本的处理方法,其特征在于,所述获取所述文本处理模型输出的各个字符的字符类别,包括:
基于所述待处理文本中的各个字符的字符特征向量,确定所述待处理文本中的各个字符归属于每个字符类别的概率;
基于每个字符在所述待处理文本中的位置,该字符归属于每个字符类别的概率,以及与该字符相邻的其他字符归属于每个字符类别的概率,更新该字符归属于每个字符类别的概率;
基于所述待处理文本中各个字符归属于每个字符类别的更新后的概率,确定所述待处理文本中各个字符的字符类别。
3.根据权利要求1所述的文本的处理方法,其特征在于,通过如下方式对所述文本处理模型进行训练:
针对每个扰动样本文本,将该扰动样本文本中各个字符的扰动特征向量输入至文本处理模型中,获取所述文本处理模型输出的各个字符的预测字符类别;
根据该扰动样本文本中每个字符的预测字符类别,以及该字符的真实字符类别,确定该扰动样本文本对应的损失值;
若各个扰动样本文本对应的损失值均小于预设阈值,则将所述文本处理模型确定为预先训练好的文本处理模型,否则继续对所述文本处理模型进行训练。
4.根据权利要求1所述的文本的处理方法,其特征在于,通过如下方式获取每个扰动样本文本中各个字符的扰动特征向量;
根据每个扰动样本文本中每个字符的字符特征向量,以及该字符对应的随机生成的随机特征向量,确定该字符的扰动特征向量。
5.一种文本的处理装置,其特征在于,所述处理装置包括:
第一获取模块,用于获取待处理文本中各个字符的字符特征向量;
第二获取模块,用于将所述待处理文本中各个字符的字符特征向量输入至预先训练好的文本处理模型中,获取所述文本处理模型输出的各个字符的字符...
【专利技术属性】
技术研发人员:黄兵,张尼,薛继东,张宏斌,赵耀,孙世豪,李庆科,许凤凯,
申请(专利权)人:中国电子信息产业集团有限公司第六研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。