医学实体关系抽取方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:27127471 阅读:22 留言:0更新日期:2021-01-25 19:50
本发明专利技术公开了医学实体关系抽取方法、装置、计算机设备及可读存储介质,涉及自然语言处理技术领域,包括获取医学文本,基于所述医学文本获取多条待处理数据;采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。提取医学实体关系费时费力且效率较低的问题。提取医学实体关系费时费力且效率较低的问题。

【技术实现步骤摘要】
医学实体关系抽取方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种医学实体关系抽取方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]生物医学文献中蕴含着丰富的以及前沿的生物医学知识,是生物医学领域相关研究者重要的知识宝库,基于生物医学文献的实体关系是构建医学知识图谱的重要研究内容,也是智能导诊、问诊、临床辅助决策等智慧医疗应用的基础。
[0003]然而,专利技术人研究发现,现有的生物医学实体间关系知识库基本是基于专家人力构建而成的,医学关系知识的覆盖范围很小,知识规模受限,随着医学文献数量指数级别的增长,仅仅依靠专家人工编辑整理知识构建医学知识库的方法是无法构建全量的医学关系知识库,人工操作工作量较大且效率较低,成本较大。

技术实现思路

[0004]本专利技术的目的是提供一种医学实体关系抽取方法、装置、计算机设备及可读存储介质,用于解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。
[0005]为实现上述目的,本专利技术提供一种医学实体关系抽取方法,包括:获取医学文本,基于所述医学文本获取多条待处理数据;
[0006]采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
[0007]基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
[0008]基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
[0009]进一步的,所述采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果,包括以下:
[0010]获取任一待处理数据,采用Bert-Embeding层对所述待处理数据进行向量化处理,获得第一向量;
[0011]采用Bi-LSTM网络对所述第一向量进行语义识别,获得第二向量;
[0012]采用Bi-GRU网络对所述第二向量进行语义识别,获得第三向量;
[0013]将所述第三向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得所述待处理数据对应的实体识别结果;
[0014]获取另一待处理数据,重复上述直至获得各个待处理数据对应的实体识别结。
[0015]进一步的,在基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前,包括以下:
[0016]提供一预设实体数据库,所述包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称;
[0017]基于所述实体识别结果获得实体名称列表;
[0018]获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;
[0019]基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;
[0020]基于与所述缩写名称对应的实体名称更新所述实体识别结果。
[0021]进一步的,所述基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对,包括以下:
[0022]获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;
[0023]识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
[0024]根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对;
[0025]基于各个待处理数据对应的实体识别结果,获得所有带有实体关系的实体对。
[0026]进一步的,基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,包括以下:
[0027]获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次;
[0028]采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权,并获取加权后与加权前的比值作为所述实体对的置信度;
[0029]基于各个所述实体对、实体关系及对应的置信度生成目标数据。
[0030]进一步的,在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,还包括对所述第一模型进行训练,包括以下;
[0031]获取训练样本,所述训练样本包括多条带有实体标签的训练数据;
[0032]其中,所述实体标签包括实体和实体类型;
[0033]将所述训练数据输入Bert-Embeding层进行向量化处理,获得与所述训练数据对应的第一处理向量;
[0034]采用Bi-LSTM网络对所述第一处理向量进行语义识别,获得第二处理向量;
[0035]采用Bi-GRU网络对所述第二处理向量进行语义识别,获得第三处理向量;
[0036]将所述第三处理向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得样本目标结果;
[0037]将所述样本目标结果与所述训练数据对应的实体标签进行比对,调整所述第一模型的参数,直至完成训练,获得训练好的第一模型。
[0038]进一步的,所述实体识别结果包括实体和实体类型,所述实体类型包括基因、疾病、物质、蛋白、症状、实验室检查、治疗方案、微生物、免疫因子、生物通路;所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联,所述依存关系类型包括肯定语义、否定语义和无法确定语义。
[0039]为实现上述目的,本专利技术还提供一种医学实体关系抽取装置,包括:
[0040]获取模块,用于获取医学文本,基于所述医学文本获取多条待处理数据;
[0041]实体识别模块,用于采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
[0042]关系识别模块,用于基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
[0043]生成模块,用于基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
[0044]为实现上述目的,本专利技术还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医学实体关系抽取方法的步骤。
[0045]为实现上述目的,本专利技术还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述医学实体关系抽取方法的步骤。
[0046]本专利技术提供的医学实体关系抽取方法、装置、计算机设备及可读存储介质,通过基于医学文本获取待处理数据,采用第一模型对待处理数据进行处理获得实体识别结果,而后根据实体识别结果进行实体关系抽取,获得带有实体关系的实体对,最后计算各个实体对的置信度并生成目标数据,实现对医学实体关系的自本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学实体关系抽取方法,其特征在于,包括:获取医学文本,基于所述医学文本获取多条待处理数据;采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。2.根据权利要求1所述的医学实体关系抽取方法,其特征在于,所述采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果,包括以下:获取任一待处理数据,采用Bert-Embeding层对所述待处理数据进行向量化处理,获得第一向量;采用Bi-LSTM网络对所述第一向量进行语义识别,获得第二向量;采用Bi-GRU网络对所述第二向量进行语义识别,获得第三向量;将所述第三向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得所述待处理数据对应的实体识别结果;获取另一待处理数据,重复上述直至获得各个待处理数据对应的实体识别结果。3.根据权利要求1所述的医学实体关系抽取方法,其特征在于,在基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前,包括以下:提供一预设实体数据库,所述包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称;基于所述实体识别结果获得实体名称列表;获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;基于与所述缩写名称对应的实体名称更新所述实体识别结果。4.根据权利要求1所述的医学实体关系抽取方法,其特征在于,所述基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对,包括以下:获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对;基于各个待处理数据对应的实体识别结果,获得所有带有实体关系的实体对。5.根据权利要求1所述的医学实体关系抽取方法,其特征在于,基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,包括以下:
获取所述...

【专利技术属性】
技术研发人员:张圣顾大中
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1