实体链接方法、装置、存储介质及电子设备制造方法及图纸

技术编号:20681250 阅读:20 留言:0更新日期:2019-03-27 18:59
本公开涉及一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备,实体链接方法包括:从医疗文本中提取待链接实体;在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。本公开通过对临床中具有不同表达方式的医学术语进行语义识别以将待链接实体链接至最接近的标准词条,提高了实体链接方法的效率和准确率。

【技术实现步骤摘要】
实体链接方法、装置、存储介质及电子设备
本公开涉及数据处理
,具体涉及一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备。
技术介绍
在临床病历大数据的处理中,由于地域、医院、医生、标准等差异,同一实体往往有大量不同的表达方式,只有精确地识别出同一种实体,针对有限的实体空间,才能有效的对数据进行统计和计算。因此,医学术语实体链接是数据处理过程中一个必不可少的部分。现有的实体链接方法一般是通过分类等算法降低候选数量,然后通过相似度计算得到最接近的候选。作为现有实体链接系统的核心算法,相似度计算一般是通过建模事物特征,将特征转化为向量,再通过计算向量距离来衡量相似的程度。在现有的实体链接方法中,一般需要大量的标注语料,而专业的医学知识难以加入到特征中用于计算。另外,基于相似度计算的实体链接方法可以很好的处理候选差异较大的情况,但是在面对候选相近的情况时通常很难处理。尤其是基于神经网络的算法,不能很好地利用医学相关知识,算法的计算过程也无法解释。因此,在针对医学领域的大数据处理中,亟需一种医学术语实体链接方法,以解决上述问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备,进而至少在一定程度上解决由于相关技术的限制和缺陷而导致的处理难度大、可解释性差、成本高以及难以管理和使用专业医学知识等技术问题。根据本公开的一个方面,提供一种实体链接方法,其特殊之处在于,包括:从医疗文本中提取待链接实体;在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。在本公开的一种示例性实施例中,所述在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的集合包括:对所述待链接实体进行分词处理得到一个或者多个分词单元;在标准词条数据库中筛选得到与所述待链接实体的分词单元具有匹配特征的标准词条的集合。在本公开的一种示例性实施例中,在步骤在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合之后,所述方法还包括:在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条。在本公开的一种示例性实施例中,在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条包括:对所述待链接实体进行语义角色标注,得到核心语义特征;通过比较所述核心语义特征,在所述标准词条的候选集合中滤除与所述待链接实体语义不符的标准词条。在本公开的一种示例性实施例中,所述比较所述核心语义特征包括:利用知识图谱对所述核心语义特征的兼容性进行语义检查。在本公开的一种示例性实施例中,所述通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分包括:建立翻译模型;通过所述翻译模型计算所述候选集合中各个标准词条的翻译概率;根据所述翻译概率为各个标准词条提供语义相关性评分。在本公开的一种示例性实施例中,所述建立翻译模型包括:利用第一算法建立第一翻译模型;利用第二算法建立第二翻译模型;对所述第一翻译模型和所述第二翻译模型进行插值,以得到用于语义相关性评分的翻译模型。根据本公开的一个方面,提供一种实体链接装置,其特殊之处在于,包括:提取模块,被配置为从医疗文本中提取待链接实体;筛选模块,被配置为在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;评分模块,被配置为通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;链接模块,被配置为将所述待链接实体链接至语义相关性评分最高的标准词条。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的实体链接方法。根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的实体链接方法。本公开实施例所提供的实体链接方法通过多层模型计算仿真人工的归一处理过程,为医疗文本中的每个待链接实体输出若干标准词条形成候选集合,并对候选集合中的标准词条进行语义相关性评分,通过对临床中具有不同表达方式的医学术语进行语义识别以将待链接实体链接至最接近的标准词条,提高了实体链接方法的效率和准确率。除此之外,本公开所提供的实体链接方法可以挖掘出训练数据中的医学知识,结合医疗大数据生成的知识图谱,弥补缺少标注数据的问题,降低了实体链接的成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开示例性实施例中实体链接方法的步骤流程图。图2示意性示出本公开示例性实施例中实体链接方法的步骤流程图。图3示意性示出本公开示例性实施例中实体链接方法的步骤流程图。图4示意性示出本公开示例性实施例中实体链接方法的步骤流程图。图5示意性示出本公开示例性实施例中实体链接装置的组成框图。图6示意性示出本公开示例性实施例中一种程序产品的示意图。图7示意性示出本公开示例性实施例中一种电子设备的模块示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本公开的示例性实施例中首先提供一种实体链接方法,如图1所示,该方法主要可以包括以下步骤:步骤S10.从医疗文本中提取待链接实体。在本示例性实施例中,医疗文本主要指的是医疗活动过程中产生的需要进行实体链接的文本数据,例如可以是病历、医嘱、护理文书、检查报告等医疗活动记录文本。本步骤首先从医疗文本中提取待链接实体,以作为后续数据处理的基础。其中,待链接实体主要指的是具有不同表达方式的医学术语,例如可以是手术名称、诊断方法、治疗方法等等。步骤S20.在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合。由步骤S10获得待链接实体后,本步骤根据所述待链接实体的特征,在标准词条数据库中进行筛选本文档来自技高网...

【技术保护点】
1.一种实体链接方法,其特征在于,包括:从医疗文本中提取待链接实体;在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:从医疗文本中提取待链接实体;在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。2.根据权利要求1所述的实体链接方法,其特征在于,所述在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的集合包括:对所述待链接实体进行分词处理得到一个或者多个分词单元;在标准词条数据库中筛选得到与所述待链接实体的分词单元具有匹配特征的标准词条的集合。3.根据权利要求1所述的实体链接方法,其特征在于,在步骤在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合之后,所述方法还包括:在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条。4.根据权利要求1所述的实体链接方法,其特征在于,在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条包括:对所述待链接实体进行语义角色标注,得到核心语义特征;通过比较所述核心语义特征,在所述标准词条的候选集合中滤除与所述待链接实体语义不符的标准词条。5.根据权利要求4所述的实体链接方法,其特征在于,所述比较所述核心语义特征包括:利用知识图谱对...

【专利技术属性】
技术研发人员:刘旭刘学梁王琛季思伟
申请(专利权)人:天津新开心生活科技有限公司天津开心生活科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1