【技术实现步骤摘要】
基于病历的医学实体和关系联合提取方法和装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于病历的医学实体和关系联合提取方法和装置。
技术介绍
[0002]随着智慧医疗的稳步发展,基于临床产生的病历数据构建医学知识图谱成为了智慧医疗中的关键一环。然而,目前的病历数据多以自然语言记录,这些非结构化的病历数据无法直接用于构建知识图谱,因此需要通过实体识别和关系抽取等技术将其转换为结构化信息,以便机器处理。
[0003]然而,由于病历文本的特殊性,病历文本中存在大量相同类型的实体,而且存在医学关系的实体之间的间隔可能较大,因此,在判断上述相同类型的实体与另一类型实体间是否存在医学关系时,目前的关系抽取模型难以判断上述另一类型实体与上述相同类型实体中的哪一个或哪几个实体存在医学关系,导致医学关系抽取效果欠佳。例如,病历文本“患者于1年前无明显诱因出现左侧【鼻塞】(症状),【流脓涕】(症状),偶【打喷嚏】(症状),【嗅觉下降】(症状),无头痛、头晕,无鼻出血,无面部麻木及牙齿松动,无视物障碍,无其他不适,未治疗 ...
【技术保护点】
【技术特征摘要】
1.一种基于病历的医学实体和关系联合提取方法,其特征在于,包括:对病历文本进行语义分割,得到多个待识别文本;对所述多个待识别文本中的分词分别进行序列组合,得到所述多个待识别文本的待识别词序列;所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成;利用实体关系联合抽取模型,对任一待识别文本的待识别词序列进行医学实体识别,得到多个医学实体以及所述多个医学实体的实体类型,并在确定任一待识别文本的两个医学实体中的头实体和尾实体后,基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系;其中,所述待确认实体关系为预设医学关系中的一种,所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同,所述最近尾实体距离为所述头实体与最近尾实体间的距离,所述尾实体间隔为所述尾实体与所述最近尾实体间的距离,所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。2.根据权利要求1所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系,具体包括:基于所述头实体和尾实体的实体表示、所述两个医学实体的上下文表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系;其中,所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语义表示确定的。3.根据权利要求2所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述上下文表示是基于如下步骤确定的:基于所述两个医学实体所在的待识别文本中所有分词与所述头实体和所述尾实体之间的关联性,确定所述两个医学实体所在的待识别文本中每一分词的融合权重;基于所述两个医学实体所在的待识别文本中每一分词的融合权重,对所述每一分词的语义表示进行融合,得到所述上下文表示。4.根据权利要求2所述的基于病历的医学实体和关系联合提取方法,其特征在于,任一待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分,并进行去除重复字、修改错别字、增补缺失字的至少一种操作后,对每个字进行语义提取得到的。5.根据权利要求1所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述确定任一待识别文本的两个医学实体中的头实体和尾实体,具体包括:确定所述两个医学实体各自对应的同类实体的数量;其中,任一医学实体对应的同类实体为所述任一待识别文本中实体类型与所述任一医学实体的实体类型相同的医学实体;基于所述两个医学实体各自对应的同类实体的数量,确...
【专利技术属性】
技术研发人员:秦晓宏,华宗楠,
申请(专利权)人:上海柯林布瑞信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。