一种文本信息提取方法、装置及设备制造方法及图纸

技术编号:30092934 阅读:23 留言:0更新日期:2021-09-18 08:55
本申请实施例公开了一种文本信息提取方法、装置及设备,通过提取待处理文本的文本特征和词性特征并融合,得到文本融合特征,将其输入至第一层次的序列标注模型中,可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合,得到更新后的文本融合特征。通过更换当前层次的序列标注模型,可以依次进行各个层次的序列标注模型的标注,得到各个层次的序列标注模型的标注结果。通过对所述各个层次的序列标注模型输出的待处理文本的标注结果进行解析,获得待处理文本包括的不同层次的待抽取信息项的信息抽取内容。可以实现在自动进行文本信息提取的基础上,得到待处理文本的较为准确的文本信息。得到待处理文本的较为准确的文本信息。得到待处理文本的较为准确的文本信息。

【技术实现步骤摘要】
一种文本信息提取方法、装置及设备


[0001]本申请涉及数据处理领域,具体涉及一种文本信息提取方法、装置及设备。

技术介绍

[0002]文本中包括大量的文本信息。在对文本中的文本信息进行提取时,部分文本的结构不规则或者不完整,缺乏预定的结构模型,难以直接对文本中的文本信息进行提取。其中文本例如,在医疗领域中,医生撰写生成的病历文本。
[0003]目前,针对此类文本通常需要进行文本处理来实现文本信息的提取。但是,提取文本信息的过程较为复杂,并且得到的文本信息的准确率较低。因此,如何实现高效、准确地进行文本信息的提取是亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种文本信息提取方法、装置及设备,能够通过多层次序列标注模型对待处理文本进行标注,并利用标注结果获取较为准确的文本信息,实现高效和准确地文本信息提取。
[0005]为解决上述问题,本申请实施例提供的技术方案如下:
[0006]一种文本信息提取方法,所述方法包括:
[0007]提取预设长度的待处理文本的文本特征以及词性特征;
[0008]将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;
[0009]将第一层次的序列标注模型确定为当前层次的序列标注模型;
[0010]将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;
[0011]判断是否存在下一层次的序列标注模型;
[0012]如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;
[0013]将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
[0014]如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;
[0015]对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。
[0016]在一种可能的实现方式中,在提取预设长度的待处理文本的文本特征以及词性特征之前,所述方法还包括:
[0017]对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本;
[0018]如果所述第一目标文本的长度大于预设长度,将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本,将所述第二目标文本的长度补齐到所述预设长度,生成待处理文本;
[0019]如果所述第一目标文本的长度小于预设长度,将所述第一目标文本的长度补齐到所述预设长度,生成待处理文本;
[0020]如果所述第一目标文本的长度等于预设长度,将所述第一目标文本确定为待处理文本。
[0021]在一种可能的实现方式中,在获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后,所述方法还包括:
[0022]获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,所述目标信息抽取内容为所述信息抽取内容中的任一项,所述目标术语文本为预先确定的术语文本中的任一项;
[0023]将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配;
[0024]如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配,将所述目标信息抽取内容替换为所述目标术语文本。
[0025]在一种可能的实现方式中,所述方法还包括:
[0026]初始化各个层次的序列标注模型;
[0027]将第一层次的序列标注模型确定为当前层次的序列标注模型;
[0028]将训练文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述训练文本的标注结果;
[0029]根据所述训练文本中针对所述当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果,得到所述当前层次的序列标注模型的损失值;
[0030]判断是否存在下一层次的序列标注模型;
[0031]如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合,重新得到所述训练文本的文本融合特征;
[0032]将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;
[0033]如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值;
[0034]将所述各个层次的序列标注模型的损失值加权相加得到综合损失值,根据所述综合损失值调整所述各个层次的序列标注模型;
[0035]重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型以及后续步骤,直到达到预设停止条件,得到训练生成的各个层次的序列标注模型。
[0036]在一种可能的实现方式中,所述序列标注模型的层数以及各个层次的序列标注模型对应的待抽取信息项是根据待抽取信息项的层次预先确定的。
[0037]在一种可能的实现方式中,所述提取预设长度的待处理文本的文本特征以及词性
特征,包括:
[0038]将预设长度的待处理文本输入ERNIE模型,得到所述待处理文本的文本特征;所述待处理文本的文本特征表征所述待处理文本的语法、语义以及所述待处理文本中各字符的位置;所述待处理文本的文本特征为m*n维的文本特征向量,其中,m为所述预设长度,n为正整数;
[0039]将所述待处理文本输入词性识别模型,得到所述待处理文本的词性特征,所述待处理文本的词性特征为m*1维的词性特征向量。
[0040]在一种可能的实现方式中,所述将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征,包括:
[0041]将所述m*1维的词性特征向量映射为m*n维的词性特征向量;
[0042]将所述m*n维的词性特征向量与所述m*n维的文本特征向量进行融合,得到所述待处理文本的文本融合特征,所述待处理文本的文本融合特征为m*n维的文本融合特征向量。
[0043]在一种可能的实现方式中,所述当前层次的序列标注模型输出的所述待处理文本的标注结果为m*1维的标注结果向量;
[0044]所述将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征,包括:
[0045]将所述m*1维的标注结果向量映本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息提取方法,其特征在于,所述方法包括:提取预设长度的待处理文本的文本特征以及词性特征;将所述待处理文本的文本特征以及词性特征进行融合,得到所述待处理文本的文本融合特征;将第一层次的序列标注模型确定为当前层次的序列标注模型;将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果;判断是否存在下一层次的序列标注模型;如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合,重新得到所述待处理文本的文本融合特征;将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型输出的所述待处理文本的标注结果;对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析,获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。2.根据权利要求1所述的方法,其特征在于,在提取预设长度的待处理文本的文本特征以及词性特征之前,所述方法还包括:对原始文本进行冗余信息过滤以及敏感信息脱敏处理,得到第一目标文本;如果所述第一目标文本的长度大于预设长度,将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本,将所述第二目标文本的长度补齐到所述预设长度,生成待处理文本;如果所述第一目标文本的长度小于预设长度,将所述第一目标文本的长度补齐到所述预设长度,生成待处理文本;如果所述第一目标文本的长度等于预设长度,将所述第一目标文本确定为待处理文本。3.根据权利要求1所述的方法,其特征在于,在获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后,所述方法还包括:获取目标信息抽取内容的文本特征以及目标术语文本的文本特征,所述目标信息抽取内容为所述信息抽取内容中的任一项,所述目标术语文本为预先确定的术语文本中的任一项;将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配;如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配,将所述目标信息抽取内容替换为所述目标术语文本。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:初始化各个层次的序列标注模型;将第一层次的序列标注模型确定为当前层次的序列标注模型;
将训练文本的文本融合特征输入所述当前层次的序列标注模型,对所述当前层次的序列标注模型对应的待抽取信息项进行标注,得到所述当前层次的序列标注模型输出的所述训练文本的标注结果;根据所述训练文本中针对所述当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果,得到所述当前层次的序列标注模型的损失值;判断是否存在下一层次的序列标注模型;如果存在下一层次的序列标注模型,将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合,重新得到所述训练文本的文本融合特征;将所述下一层次的序列标注模型确定为当前层次的序列标注模型,重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤;如果不存在下一层次的序列标注模型,获得各个层次的序列标注模型的损失值;将所述各个层次的序列标注模型的损失值加权相加得到综合损失值,根据所述综合损失值调整所述各个层次的序列标注模型;重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型...

【专利技术属性】
技术研发人员:刘禄廖锐刘志伟王海永杨雪张春龙
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1