【技术实现步骤摘要】
医学知识提取方法、装置、存储介质及计算机设备
[0001]本申请涉及人工智能
,具体涉及一种医学知识提取方法、装置、计算机可读存储介质及计算机设备。
技术介绍
[0002]在智慧医疗的各个应用场景如辅助诊断、用药推荐、科室推荐中,医学专业知识作为各项应用场景的基石,起到了不可或缺的支撑作用。这些应用场景中所涉及的医学知识十分广泛且专业,例如疾病、症状、用药、治疗等。因此,面向下游应用场景的需求,准确高效地从各权威来源(如教科书、指南等)提取医学知识至关重要。
[0003]现有的医学知识抽取技术一般可以抽象为实体
‑
关系联合抽取技术,主要是提取文本输入中的实体特征和关系特征,并对实体特征和关系特征进行分类,以得到文本输入中的实体和关系等医学知识。虽然实体
‑
关系联合抽取技术在一定程度上可以学习到医学知识,但是实体
‑
关系联合抽取技术在构建实体特征和关系特征时,主要关注于文本输入中的实体和关系自身特征,对于上下文的建模能力不强,使得学习到的医学知识不够准确。
技术实现思路
[0004]本申请实施例提供一种医学知识提取方法、装置、计算机可读存储介质及计算机设备,可以提高医学知识提取的准确性。
[0005]本申请实施例提供了一种医学知识提取方法,包括:
[0006]获取医学文本,并对所述医学文本进行编码处理,以得到所述医学文本中每个字的编码特征;
[0007]对于所述医学文本中任意长度的每个子文本,根据每个子文本包括的 ...
【技术保护点】
【技术特征摘要】
1.一种医学知识提取方法,其特征在于,包括:获取医学文本,并对所述医学文本进行编码处理,以得到所述医学文本中每个字的编码特征;对于所述医学文本中任意长度的每个子文本,根据每个子文本包括的每个字的编码特征,通过注意力机制确定每个子文本的自身特征表示;根据每个子文本的自身特征表示,确定每个子文本所属的目标实体,以得到所述医学文本的实体集合;对于所述实体集合中的任意两个子文本,根据所述两个子文本的自身特征表示,通过多视角的上下文注意力机制,确定所述两个子文本所属的目标实体之间的目标关系;将所述医学文本中的每个子文本所属的目标实体和任意两个子文本所属的目标实体之间的目标关系确定为所述医学文本的医学知识。2.根据权利要求1所述的方法,其特征在于,所述根据所述两个子文本的自身特征表示,通过多视角的上下文注意力机制,确定所述两个子文本所属的目标实体之间的目标关系,包括:根据所述两个子文本的自身特征表示,基于多视角的上下文注意力机制,确定所述两个子文本之间的中间文本的上下文注意力特征表示;根据所述两个子文本的自身特征表示和所述中间文本的上下文注意力特征表示,确定所述两个子文本所属的目标实体之间的目标关系。3.根据权利要求2所述的方法,其特征在于,所述两个子文本中的第一子文本所属的目标实体为头实体,第二子文本所属的目标实体为尾实体,所述根据所述两个子文本的自身特征表示,基于多视角的上下文注意力机制,确定所述两个子文本之间的中间文本的上下文注意力特征表示,包括:基于注意力机制,根据所述第一子文本的自身特征表示和所述两个子文本之间的中间文本的编码特征,确定所述中间文本在头实体视角下的第一注意力特征表示;基于注意力机制,根据所述第二子文本的自身特征表示和所述中间文本的编码特征,确定所述中间文本在尾实体视角下的第二注意力特征表示;基于注意力机制,根据所述中间文本中每个字的编码特征,确定所述中间文本在全局视角下的第三注意力特征表示;根据所述第一注意力特征表示、第二注意力特征表示和第三注意力特征表示,确定所述两个子文本之间的中间文本的上下文注意力特征表示。4.根据权利要求3所述的方法,其特征在于,所述基于注意力机制,根据所述第一子文本的自身特征表示和所述两个子文本之间的中间文本的编码特征,确定所述中间文本在头实体视角下的第一注意力特征表示,包括:利用多层感知机对所述第一子文本的自身特征表示和所述中间文本中每个字的编码特征进行处理,以确定在所述头实体视角下所述中间文本中每个字的第一注意力权重;根据所述中间文本中每个字的第一注意力权重,对所述中间文本中每个字的编码特征进行加权求和处理,以得到所述中间文本在所述头实体视角下的第一注意力特征表示。5.根据权利要求2所述的方法,其特征在于,所述根据所述两个子文本的自身特征表示和所述中间文本的上下文注意力特征表示,确定所述两个子文本所属的目标实体之间的目
标关系,包括:将所述两个子文本的自身特征表示和所述中间文本的上下文注意力特征表示进行融合处理,以得到关系融合特征;利用不同关系类别对应的关系分类多层感知机对所述关系融合特征进行第二分类处理,以确定所述两个子文本所属的目标实体之间的目标关系。6.根据权利要求1所述的方法,其特征在于,所述根据每个子文本的自身特征表示,确定每个子文本所属的目标实体,包括:根据每个子文本的自身特征表示和相应子文本中每个字的编码特征,确定基于相应子文本提取的不同实体类别的上下文特征表示;利用实体分类多层感知机,对相应子文本的自身特征表示和基于相应子文本提取的不同实体类别的上下文特征表示进行第一分类处理,以确定相应子文本的目标实体类别;将目标实体类别所对应的实体确定为相应子文本所属的目标实体,如得到每个子文本所属的目标实体。7.根据权利要求6所述的方法,其特征在于,所述根据每个子文本的自身特征表示和相应子文本中每个字的编码特征,确定基于相应子文本提取的不同实体类别的上下文特征表示,包括:利用不同实体类别所对应的实体分类多层感知机,对每个子文本的自身特征表示和相应子文本中每个字的编码特征进行处理,以确定相应子文本对应于不同实体类别的实体注意力权重;根据所述实体注意力权重和相应子文本中每个字的编码特征,确定基于相应子文本体提取的不同实体类别的上下文特征表示。8.根据权利要求6所述的方法,其特征在于,所述利用实体分类多层感知机,对相应子文本的自身特征表示和基于相应子文本提取的不同实体类别的上下文特征表示进行第一分类处理,以确定相应子文本的目标实体类别,包括:对于每个实体类别,根据相应子文本的自身特征表示和提取的所述上下文特征表示,为每个实体类别下的相应子文本构建特征;利用每个实体类别所对应的实体分类多层感知机,对每个实体类别下所构建的特征进行第一分类处理,以确定相应子文本对于不同实体类别的实体分类得分;...
【专利技术属性】
技术研发人员:蔡健宇,肖飞,胡加学,赵景鹤,贺志阳,鹿晓亮,魏思,胡国平,赵志伟,
申请(专利权)人:安徽讯飞医疗股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。