当前位置: 首页 > 专利查询>中山大学专利>正文

一种面向中文医学文本的实体关系抽取方法及系统技术方案

技术编号:38904404 阅读:22 留言:0更新日期:2023-09-22 14:22
本发明专利技术涉及语言数据处理技术领域,提出一种面向中文医学文本的实体关系抽取方法及系统,包括:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入CasRel模型和TPLinker模型中,并对所述CasRel模型和TPLinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。以获取最终的抽取关系。以获取最终的抽取关系。

【技术实现步骤摘要】
一种面向中文医学文本的实体关系抽取方法及系统


[0001]本专利技术涉及语言数据处理
,更具体地,涉及一种面向中文医学文本的实体关系抽取方法及系统。

技术介绍

[0002]中文医学文本是十分宝贵的财富,抽取非结构化和半结构化的医学文本去构建知识图谱等技术,可以为下游的子任务提供相应的服务,从而促进如智能医疗、辅助诊断、医疗知识普及等方面的发展。
[0003]实体关系抽取是判断文本中的实体与实体之间是否存在某种特定的关联关系,并构建出相应的关系三元组。早期的实体关系抽取任务主要采用流水线抽取方法,即先对给定的数据集中的句子进行命名实体的识别,然后再利用分类器等计算出实体间的关系,从而进行关系分类。这一方法容易实现,其实体识别和关系抽取这两个子任务被解耦开来,可以分别使用独立的数据集。然而,实体识别中所出现的误差会继续传递到关系抽取任务中,从而产生级联误差;子任务高度解耦的同时也忽略了它们之间可能的联系与依赖;此外,先进行实体两两配对的任务,会使得本没有关系的实体对出现,这些实体对就成了冗余的信息,提升了计算的复杂度,也易导致错误发生。
[0004]目前有提出采用联合抽取方法,通过将实体抽取和关系抽取任务联合建模,利用两者之间的潜在关系,减轻流水线方法中可能出现的错误、误差累积等问题带来的影响。联合抽取方法存在两种不同的应用方式,一个是基于共享参数的多任务学习方法,另一个是联合解码的结构化预测方法。但是,由于中文与英文存在较大差异,中文文本的实体和实体关系类型都更具有特殊性,因此相关技术处理中文文本时的效果可能欠佳。同时,在医学文本领域,由于医疗数据信息的隐私性、医学领域的专业性、医学研究的高标准与高要求,中文医学文本的实体关系抽取效果仍有较大提升空间。

技术实现思路

[0005]本专利技术为克服上述现有技术所述的实体关系抽取方法中存在关系重叠和级联误差,应用于中文医学文本的实体抽取时效果欠佳的缺陷,提供一种面向中文医学文本的实体关系抽取方法及系统。
[0006]为解决上述技术问题,本专利技术的技术方案如下:一种面向中文医学文本的实体关系抽取方法,包括以下步骤:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入CasRel(Cascade Binary Tagging Framework)模型和TPLinker模型中,并对所述CasRel模型和TPLinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择
满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。
[0007]进一步地,本专利技术还提出了一种面向中文医学文本的实体关系抽取系统,应用本专利技术提出的面向中文医学文本的实体关系抽取方法。其中包括:预处理模块,用于对输入的中文医学文本数据进行预处理,生成文本向量;训练模块,用于利用文本向量对CasRel模型和TPLinker模型分别进行训练;优化模块,用于根据选择的预训练模型作为编码层分别对所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型;分析模块,用于比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的实体关系抽取模型;实体关系抽取模块,其上配置有由所述分析模块选择的实体关系抽取模型,用于对待处理的中文医学文本数据处理,输出相应的抽取关系。
[0008]进一步地,本专利技术还提出了一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现本专利技术提出的实体关系抽取方法的步骤。
[0009]与现有技术相比,本专利技术技术方案的有益效果是:本专利技术将预训练模型结合CasRel模型和TPLinker模型优化实体关系抽取的效果,并综合不同组合模型进行实体抽取效果评估后,选择满足预设的评估指标的目标实体关系抽取模型进行实体关系抽取,解决了重叠三元组问题及级联误差问题,有效提高中文医学文本的实体抽取效果。
附图说明
[0010]图1为实施例1的面向中文医学文本的实体关系抽取方法的流程图。
[0011]图2为CasRel模型的框架图。
[0012]图3为TPLinker模型的框架图。
[0013]图4为TPLinker模型标注方案矩阵图。
[0014]图5为CasRel模型训练过程的指标变化示意图。
[0015]图6为TPLinker模型训练过程的指标变化示意图。
[0016]图7为实施例2中训练集的关系类别数量统计示意图。
[0017]图8为实施例2中验证集的关系类别数量统计示意图。
[0018]图9为实施例3的面向中文医学文本的实体关系抽取系统的架构图。
具体实施方式
[0019]附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些公知说明可能省略是可以理解的。
[0020]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0021]实施例1本实施例提出一种面向中文医学文本的实体关系抽取方法,如图1所示,为本实施例的面向中文医学文本的实体关系抽取方法的流程图。
[0022]本实施例提出的面向中文医学文本的实体关系抽取方法中,包括以下步骤:
S1、获取中文医学文本数据并对其进行预处理,得到文本向量。
[0023]S2、将所述文本向量分别输入CasRel模型和TPLinker模型中,并对所述CasRel模型和TPLinker模型分别进行训练。
[0024]S3、选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型。
[0025]S4、比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出。
[0026]S5、根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。
[0027]本实施例中,将预训练模型结合CasRel模型和TPLinker模型优化实体关系抽取的效果,并综合不同组合模型进行实体抽取效果评估后,选择满足预设的评估指标的目标实体关系抽取模型进行实体关系抽取,充分考虑中文实体关系抽取中重叠和级联误差问题,有效提高中文医学文本的实体抽取效果。
[0028]其中,CasRel模型通过一种新的视角来审视关系三元组抽取,用于解决重叠三元组问题。而TPLinker模型将实体、关系联合提取的任务转变为token对的连接问题,用于解决级联误差问题。
[0029]在一可选实施例中,S1步骤中,对中文医学文本数据进行预处理时,包括以下步骤:对于输入所述CasRel模型的中文医学文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文医学文本的实体关系抽取方法,其特征在于,包括:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入CasRel模型和TPLinker模型中,并对所述CasRel模型和TPLinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。2.根据权利要求1所述的实体关系抽取方法,其特征在于,所述中文医学文本数据包括文本及带标注的三元组信息;则对所述中文医学文本数据进行预处理,包括:对于输入所述CasRel模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式;对于输入所述TPLinker模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式,并获取词粒度和字粒度的片段索引区间;对经过转换处理的中文医学文本数据进行编码,得到文本向量。3.根据权利要求2所述的实体关系抽取方法,其特征在于,对经过转换处理的中文医学文本数据进行编码,包括:利用分词器对经过转换处理的中文医学文本数据中的文本进行切分,利用BERT模型对切分后的词组转换为相应的编码,得到文本向量。4.根据权利要求2所述的实体关系抽取方法,其特征在于,对所述CasRel模型进行训练,包括:将所述文本向量输入CasRel模型中,利用二分类器计算任一token作为subject起始位置及结束位置的概率,并根据预设的阈值进行标记:若概率大于或等于阈值则标记为1,若概率小于阈值则标记为0;得到任一token作为subject起始位置及结束位置的二进制标记值;subject中的损失函数使用最大似然函数判断误差;其表达式为:其中,表示从句子中标识subject的损失函数,表示subject,表示所输入的句子表示,表示权重;表示句子实际长度,表示第个token是subject起始位置的概率,表示第个token是subject结束位置的概率;表示第个token作为subject起始位置的二进制标记,表示第个token作为subject结束位置的二进制标记;表示指针标识主体或客体的位置;表示指针处于其他无关位置;遍历每一种关系类型,对任一subject对应的每一种关系的object起始位置和结束位
置进行解码,得到实体关系预测结果三元组;object中的损失函数使用最大似然函数判断误差;其表达式为:其中,表示标识subject特定关系对应的object损失函数,表示object,表示偏置值;表示第个token是object起始位置的概率,表示第个token是objectj结束位置的概率;表示第个token作为objectj起始位置的二进制标记,表示第个token作为objectj结束位置的二进制标...

【专利技术属性】
技术研发人员:路永和陈红玉赵蕊洁张悦韵朱侯
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1