一种文本信息提取方法、装置及设备制造方法及图纸

技术编号：30092934 阅读：23 留言：0更新日期：2021-09-18 08:55

本申请实施例公开了一种文本信息提取方法、装置及设备，通过提取待处理文本的文本特征和词性特征并融合，得到文本融合特征，将其输入至第一层次的序列标注模型中，可以对当前层次对应的待抽取信息项进行标注。进而利用得到的标注结果与文本融合特征进行融合，得到更新后的文本融合特征。通过更换当前层次的序列标注模型，可以依次进行各个层次的序列标注模型的标注，得到各个层次的序列标注模型的标注结果。通过对所述各个层次的序列标注模型输出的待处理文本的标注结果进行解析，获得待处理文本包括的不同层次的待抽取信息项的信息抽取内容。可以实现在自动进行文本信息提取的基础上，得到待处理文本的较为准确的文本信息。得到待处理文本的较为准确的文本信息。得到待处理文本的较为准确的文本信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息提取方法、装置及设备

[0001]本申请涉及数据处理领域，具体涉及一种文本信息提取方法、装置及设备。

技术介绍

[0002]文本中包括大量的文本信息。在对文本中的文本信息进行提取时，部分文本的结构不规则或者不完整，缺乏预定的结构模型，难以直接对文本中的文本信息进行提取。其中文本例如，在医疗领域中，医生撰写生成的病历文本。
[0003]目前，针对此类文本通常需要进行文本处理来实现文本信息的提取。但是，提取文本信息的过程较为复杂，并且得到的文本信息的准确率较低。因此，如何实现高效、准确地进行文本信息的提取是亟待解决的问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种文本信息提取方法、装置及设备，能够通过多层次序列标注模型对待处理文本进行标注，并利用标注结果获取较为准确的文本信息，实现高效和准确地文本信息提取。
[0005]为解决上述问题，本申请实施例提供的技术方案如下：
[0006]一种文本信息提取方法，所述方法包括：
[0007]提取预设长度的待处理文本的文本特征以及词性特征；
[0008]将所述待处理文本的文本特征以及词性特征进行融合，得到所述待处理文本的文本融合特征；
[0009]将第一层次的序列标注模型确定为当前层次的序列标注模型；
[0010]将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型，对所述当前层次的序列标注模型对应的待抽取信息项进行标注，得到所述当前层次的序列标注模型输出的所述待处理文本的标注...

【技术保护点】

【技术特征摘要】
1.一种文本信息提取方法，其特征在于，所述方法包括：提取预设长度的待处理文本的文本特征以及词性特征；将所述待处理文本的文本特征以及词性特征进行融合，得到所述待处理文本的文本融合特征；将第一层次的序列标注模型确定为当前层次的序列标注模型；将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型，对所述当前层次的序列标注模型对应的待抽取信息项进行标注，得到所述当前层次的序列标注模型输出的所述待处理文本的标注结果；判断是否存在下一层次的序列标注模型；如果存在下一层次的序列标注模型，将所述当前层次的序列标注模型输出的所述待处理文本的标注结果与所述待处理文本的文本融合特征进行融合，重新得到所述待处理文本的文本融合特征；将所述下一层次的序列标注模型确定为当前层次的序列标注模型，重新执行所述将所述待处理文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤；如果不存在下一层次的序列标注模型，获得各个层次的序列标注模型输出的所述待处理文本的标注结果；对所述各个层次的序列标注模型输出的所述待处理文本的标注结果进行解析，获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容。2.根据权利要求1所述的方法，其特征在于，在提取预设长度的待处理文本的文本特征以及词性特征之前，所述方法还包括：对原始文本进行冗余信息过滤以及敏感信息脱敏处理，得到第一目标文本；如果所述第一目标文本的长度大于预设长度，将所述第一目标文本切分为多个小于或等于所述预设长度的第二目标文本，将所述第二目标文本的长度补齐到所述预设长度，生成待处理文本；如果所述第一目标文本的长度小于预设长度，将所述第一目标文本的长度补齐到所述预设长度，生成待处理文本；如果所述第一目标文本的长度等于预设长度，将所述第一目标文本确定为待处理文本。3.根据权利要求1所述的方法，其特征在于，在获得所述待处理文本包括的不同层次的待抽取信息项的信息抽取内容之后，所述方法还包括：获取目标信息抽取内容的文本特征以及目标术语文本的文本特征，所述目标信息抽取内容为所述信息抽取内容中的任一项，所述目标术语文本为预先确定的术语文本中的任一项；将所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征进行匹配；如果所述目标信息抽取内容的文本特征与所述目标术语文本的文本特征匹配，将所述目标信息抽取内容替换为所述目标术语文本。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：初始化各个层次的序列标注模型；将第一层次的序列标注模型确定为当前层次的序列标注模型；
将训练文本的文本融合特征输入所述当前层次的序列标注模型，对所述当前层次的序列标注模型对应的待抽取信息项进行标注，得到所述当前层次的序列标注模型输出的所述训练文本的标注结果；根据所述训练文本中针对所述当前层次的序列标注模型对应的待抽取信息项的标准标注结果以及所述当前层次的序列标注模型输出的所述训练文本的标注结果，得到所述当前层次的序列标注模型的损失值；判断是否存在下一层次的序列标注模型；如果存在下一层次的序列标注模型，将所述当前层次的序列标注模型输出的所述训练文本的标注结果与所述训练文本的文本融合特征进行融合，重新得到所述训练文本的文本融合特征；将所述下一层次的序列标注模型确定为当前层次的序列标注模型，重新执行所述将所述训练文本的文本融合特征输入所述当前层次的序列标注模型以及后续步骤；如果不存在下一层次的序列标注模型，获得各个层次的序列标注模型的损失值；将所述各个层次的序列标注模型的损失值加权相加得到综合损失值，根据所述综合损失值调整所述各个层次的序列标注模型；重新执行所述将第一层次的序列标注模型确定为当前层次的序列标注模型...

【专利技术属性】
技术研发人员：刘禄，廖锐，刘志伟，王海永，杨雪，张春龙，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人