一种医疗实体属性抽取方法及装置制造方法及图纸

技术编号:37677197 阅读:14 留言:0更新日期:2023-05-26 04:42
本申请提供了一种医疗实体属性抽取方法及装置,包括:将预处理后的医疗实体输入预训练模型,得到向量化实体;拼接所述向量化实体与向量化属性名称,得到复合向量;计算至少一个待选属性对应的向量间距离,所述至少一个待选属性为基于跨度窗口表示的复合向量;根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,所述属性抽取结果与所述向量化属性名称对应。这样,通过融合中文医疗预训练模型和词典信息,采用跨度表示和向量距离计算的方式,抽取复杂医疗实体中的属性,减少人工干预,提升了复杂医疗实体中属性抽取效果。医疗实体中属性抽取效果。医疗实体中属性抽取效果。

【技术实现步骤摘要】
一种医疗实体属性抽取方法及装置


[0001]本申请涉及文字处理的
,特别是涉及一种医疗实体属性抽取方法及装置。

技术介绍

[0002]医疗数据具有专业性强,结构复杂的特点。通常一个诊断名称、手术名称或者检查名称实体包含很多有效信息。例如,当诊断名称为侵袭性垂体PRL+GH(其中,GH是growth hormone的缩写,即生长激素;PRL是prolactin的缩写,即泌乳素)混合大腺瘤伴卒中时,此诊断名称包含信息一:腺瘤的部位是“垂体”、信息二:内分泌功能是“PRL+GH”、信息三:伴随疾病是“卒中”等。将实体中的这些有效信息提取出来,对医疗数据的分析利用具有重要的价值。
[0003]目前专门抽取复杂医疗实体属性的方法较少,基于规则和词典匹配的方法可以解决一些问题,但其依赖于词典和预设的匹配规则,在面对新的实体时,其词典和规则常常不能完整地覆盖复杂的医疗实体,需要人工实时增加词典和规则,费时费力且效果较差;应用在大量的医疗数据中时,其泛化效果也常常不能令人满意。另外,基于序列标注的实体属性识别方法也是一种通用的属性提取方法,但是这种方法无法识别出实体中存在的包含嵌套关系的属性,会给后续数据的使用和分析带来巨大影响。如诊断实体“侵袭性垂体PRL+GH混合大腺瘤伴卒中”中病理学表述属性为“混合大腺瘤”,其包含了肿瘤大小属性“大”。
[0004]因此,如何高效精准抽取医疗实体属性,是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种医疗实体属性抽取方法及装置,旨在高效精准抽取医疗实体属性。
[0006]第一方面,本申请实施例提供了一种医疗实体属性抽取方法,包括:
[0007]将预处理后的医疗实体输入预训练模型,得到向量化实体;
[0008]拼接所述向量化实体与向量化属性名称,得到复合向量;
[0009]计算至少一个待选属性对应的向量间距离,所述至少一个待选属性为基于跨度窗口表示的复合向量;
[0010]根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,所述属性抽取结果与所述向量化属性名称对应。
[0011]可选的,在所述将预处理后的医疗实体输入预训练模型,得到向量化实体之前,所述方法还包括:
[0012]对医疗实体进行细粒度分词,得到分词拆分结果,所述分词拆分结果包括词汇类别信息;
[0013]拼接所述医疗实体和所述词汇类别信息,得到所述预处理后的医疗实体。
[0014]可选的,所述计算至少一个待选属性对应的向量间距离,包括:
[0015]根据预设跨度窗口长度,获取所述复合向量对应的至少一个待选属性;
[0016]计算每个待选属性对应的注意力分数,作为每个待选属性对应的实体贡献度;
[0017]计算所述复合向量与预设乘积的向量间距离,所述预设乘积为所述每个待选属性及其对应的实体贡献度的乘积。
[0018]可选的,所述根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,包括:
[0019]获取所述至少一个待选属性中,对应的向量间距离小于预设阈值的待选属性,作为属性抽取结果。
[0020]可选的,所述拼接所述向量化实体与向量化属性名称,得到复合向量,包括:
[0021]拼接所述向量化实体与第一向量化属性名称,得到第一复合向量;
[0022]拼接所述向量化实体与第二向量化属性名称,得到第二复合向量。
[0023]可选的,所述计算至少一个待选属性对应的向量间距离,包括:
[0024]计算第一向量间距离集合,所述第一向量间距离集合包括第一待选属性集合中每个待选属性对应的向量间距离,所述第一待选属性集合为基于跨度窗口表示的第一复合向量;
[0025]计算第二向量间距离集合,所述第二向量间距离集合包括第二待选属性集合中每个待选属性对应的向量间距离,所述第二待选属性集合为基于跨度窗口表示的第二复合向量。
[0026]可选的,所述根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,包括:
[0027]根据所述第一向量间距离集合,确定所述第一待选属性集合中满足预设条件的待选属性,作为第一属性抽取结果,所述第一属性抽取结果与所述第一向量化属性名称对应;
[0028]根据所述第二向量间距离集合,确定所述第二待选属性集合中满足预设条件的待选属性,作为第二属性抽取结果,所述第二属性抽取结果与所述第二向量化属性名称对应。
[0029]第二方面,本申请实施例提供了一种医疗实体属性抽取装置,包括:
[0030]向量化模块,用于将预处理后的医疗实体输入预训练模型,得到向量化实体;
[0031]拼接模块,用于拼接所述向量化实体与向量化属性名称,得到复合向量;
[0032]计算模块,用于计算至少一个待选属性对应的向量间距离,所述至少一个待选属性为基于跨度窗口表示的复合向量;
[0033]结果模块,用于根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,所述属性抽取结果与所述向量化属性名称对应。
[0034]第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的医疗实体属性抽取方法。
[0035]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的医疗实体属性抽取方法。
[0036]本申请实施例提供了一种医疗实体属性抽取方法及装置,在执行所述方法时,先将预处理后的医疗实体输入预训练模型,得到向量化实体;后拼接所述向量化实体与向量
化属性名称,得到复合向量;再计算至少一个待选属性对应的向量间距离,所述至少一个待选属性为基于跨度窗口表示的复合向量;最后根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,所述属性抽取结果与所述向量化属性名称对应。这样,通过融合中文医疗预训练模型和词典信息,采用跨度表示和向量距离计算的方式,抽取复杂医疗实体中的属性,减少人工干预,提升了复杂医疗实体中属性抽取效果。
附图说明
[0037]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例提供的医疗实体属性抽取方法的一种方法流程图;
[0039]图2为本申请实施例提供的医疗实体属性抽取方法的另一种方法流程图;
[0040]图3为本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗实体属性抽取方法,其特征在于,所述方法包括:将预处理后的医疗实体输入预训练模型,得到向量化实体;拼接所述向量化实体与向量化属性名称,得到复合向量;计算至少一个待选属性对应的向量间距离,所述至少一个待选属性为基于跨度窗口表示的复合向量;根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,所述属性抽取结果与所述向量化属性名称对应。2.根据权利要求1所述的方法,其特征在于,在所述将预处理后的医疗实体输入预训练模型,得到向量化实体之前,所述方法还包括:对医疗实体进行细粒度分词,得到分词拆分结果,所述分词拆分结果包括词汇类别信息;拼接所述医疗实体和所述词汇类别信息,得到所述预处理后的医疗实体。3.根据权利要求1所述的方法,其特征在于,所述计算至少一个待选属性对应的向量间距离,包括:根据预设跨度窗口长度,获取所述复合向量对应的至少一个待选属性;计算每个待选属性对应的注意力分数,作为每个待选属性对应的实体贡献度;计算所述复合向量与预设乘积的向量间距离,所述预设乘积为所述每个待选属性及其对应的实体贡献度的乘积。4.根据权利要求1所述的方法,其特征在于,所述根据所述向量间距离,确定所述至少一个待选属性中满足预设条件的待选属性,作为属性抽取结果,包括:获取所述至少一个待选属性中,对应的向量间距离小于预设阈值的待选属性,作为属性抽取结果。5.根据权利要求1所述的方法,其特征在于,所述拼接所述向量化实体与向量化属性名称,得到复合向量,包括:拼接所述向量化实体与第一向量化属性名称,得到第一复合向量;拼接所述向量化实体与第二向量化属性名称,得到第二复合向量。6.根据权利要求5所述的方法,其特征在于,所述计算至少一个待选属性对应的向量间距离,包括:计算第一向量间距离集合,所述第一向...

【专利技术属性】
技术研发人员:王青华尚亚飞胡可云陈联忠
申请(专利权)人:北京嘉和海森健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1