文本处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30403890 阅读:22 留言:0更新日期:2021-10-20 10:57
本申请公开了一种文本处理方法、装置、计算机设备及存储介质,属于计算机领域。本申请通过对主场景和副场景两种不同的样本文本,分别进行文本特征的提取、命名实体识别以及场景类型的预测,得到样本文本的预测实体、预测实体类型和预测场景类型,通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息,基于对抗学习的思想对初始语言模型进行参数调整,得到目标语言模型,这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息,且能够用于精准识别跨场景文本中的命名实体,而并不局限于某一特定场景的文本,从而提高了文本处理的准确度,提升了模型的泛化能力。提升了模型的泛化能力。提升了模型的泛化能力。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,特别涉及一种文本处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术及信息产业的发展,海量的文本数据不断产生,如何高效地从海量的文本数据中提取出有用的信息成为一个研究热点。在信息抽取技术中,命名实体识别(Named Entity Recognition,NER)是一项重要的任务,NER的目的是从给定的文本数据中识别出具有特定意义的实体,该实体包括但不限于人名、地名、机构名、专有名词等。
[0003]通常,将待处理文本输入到双向长短时记忆(Bi

directional Long Short

Term Memory,Bi

LSTM)模型中提取文本特征,将提取到的文本特征输入到条件随机场(Conditional Random Field,CRF)模型中进行序列标注,以识别出文本数据中的实体词语。
[0004]在上述过程中,由于NER识别通常都基于特定场景的文本进行训练,导致本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征,所述多个样本文本包括主场景的样本文本和副场景的样本文本;基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型;基于所述文本特征,获取所述多个样本文本的预测场景类型,所述预测场景类型包括所述主场景和所述副场景;基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型,所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征,所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征,获取所述多个样本文本的预测场景类型包括:将所述文本特征输入梯度反转层,通过所述梯度反转层对所述文本特征进行恒等变换,得到恒等变换后的特征;将所述恒等变换后的特征输入场景判别网络,通过所述场景判别网络分别对所述多个样本文本进行分类,输出所述多个样本文本的所述预测场景类型;其中,所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。3.根据权利要求1所述的方法,其特征在于,所述基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型包括:基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息,确定第一损失函数值;基于所述预测场景类型和所述多个样本文本的场景标注信息,确定第二损失函数值;基于所述第一损失函数值和所述第二损失函数值,确定本次迭代过程的目标损失函数值;响应于所述目标损失函数值不符合停止条件,迭代训练所述初始语言模型,直到所述目标损失函数值符合所述停止条件,得到所述目标语言模型。4.根据权利要求1所述的方法,其特征在于,所述将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征包括:对任一样本文本进行字符划分,得到所述任一样本文本的字符序列;将所述字符序列输入所述初始语言模型中的至少一个编码层;通过所述至少一个编码层对所述字符序列进行编码,将最后一个编码层输出的特征序列确定为所述任一样本文本的文本特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型包括:对任一样本文本,将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符,所述第一字符为所述预测实体的首位字符;
将所述任一样本文本的文本特征输入第二全连接网络,输出所述任一样本文本中的第二字符,所述第二字符为所述预测实体的末位字符;基于所述第一字符和所述第二字符,确定所述预测实体和所述预测实体类型。6.根据权利要求5所述的方法,其特征在于,所述将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符包括:调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第一概率,一个第一概率用于表示所述字符序列中的一个字符为第一字符的可能性;基于所述至少一个第一概率,确定所述任一样本文本中的第一字符。7.根据权利要求5所述的方法,其特征在于,所述通过将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符包括:调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第一字符的可能性;基于所述至...

【专利技术属性】
技术研发人员:吴坤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1