【技术实现步骤摘要】
基于语义成分的实体链接方法及装置
本专利技术涉及计算机
,尤其是涉及一种基于语义成分的实体链接方法及装置。
技术介绍
在临床病历大数据的处理中,由于地域、医院、医生、标准等差异,同一实体往往有大量不同的表达方式,只有精确地识别出同一种实体,针对有限的实体空间,才能有效的对数据进行统计和计算。因此,医学术语实体链接是数据处理过程中一个必不可少的部分。现有的实体链接方法一般是通过分类等算法降低候选数量,然后通过相似度计算得到最接近的候选。作为现有实体链接系统的核心算法,相似度计算一般是通过建模事物特征,将特征转化为向量,再通过计算向量距离来衡量相似的程度。在现有的实体链接方法中,一般需要大量的标注语料,而专业的医学知识难以加入到特征中用于计算。另外,基于相似度计算的实体链接方法可以很好的处理候选差异较大的情况,但是在面对候选相近的情况时通常很难处理。尤其是基于神经网络的算法,不能很好地利用医学相关知识,算法的计算过程也无法解释。因此,在针对医学领域的大数据处理中,亟需一种医学术语实体链接方法,以解决上述问题 ...
【技术保护点】
1.一种基于语义成分的实体链接方法,其特征在于,包括:/n从医疗数据集中获取待链接实体;/n在医疗知识图谱中确定所述待链接实体的标准实体候选集合,所述标准实体候选集合包括多个与所述待链接实体最相似的标准实体;/n通过预先训练的语义增强模型,确定所述候选集合中的各个标准实体与待链接实体所述语义相似度评分,其中,所述语义增强模型包括第一编码层和第二编码层,所述第一编码层,所述第二编码层用于基于语义成分信息进行编码,所述第一编码层基于双向编码器BERT进行编码;/n将所述待链接实体链接至所述候选集合中的语义相似度评分最高的标准实体。/n
【技术特征摘要】 【专利技术属性】
1.一种基于语义成分的实体链接方法,其特征在于,包括:
从医疗数据集中获取待链接实体;
在医疗知识图谱中确定所述待链接实体的标准实体候选集合,所述标准实体候选集合包括多个与所述待链接实体最相似的标准实体;
通过预先训练的语义增强模型,确定所述候选集合中的各个标准实体与待链接实体所述语义相似度评分,其中,所述语义增强模型包括第一编码层和第二编码层,所述第一编码层,所述第二编码层用于基于语义成分信息进行编码,所述第一编码层基于双向编码器BERT进行编码;
将所述待链接实体链接至所述候选集合中的语义相似度评分最高的标准实体。
2.根据权利要求1所述的方法,其特征在于,通过预先训练的语义增强模型,确定所述候选集合中的各个标准实体与待链接实体所述语义相似度评分的步骤,包括:
通过预先训练的语义增强模型,确定所述候选集合中的各个标准实体的语义增强编码与待链接实体的语义增强编码;
根据所述待链接实体语义增强编码以及所述候选集合中的各个标准实体的语义增强编码确定所述候选集合中的各个标准实体与待链接实体所述语义相似度评分。
3.根据权利要求2所述的方法,其特征在于,通过预先训练的语义增强模型,确定所述候选集合中的各个标准实体的语义增强编码与待链接实体的语义增强编码的步骤,包括:
在待链接实体和标准实体候选集合中以此选择当前实体,并针对每个当前实体均执行如下步骤,直至确定每个当前实体的语义增强编码:
基于预先训练的语义成分解析模型对所述当前实体进行预测,确定所述当前实体对应的标签序列,所述语义成分解析模型包括所述第一编码层以及标注层,所述第一编码层用于基于所述当前实体生成第一编码,所述标注层用于基于所述第一编码生成所述标签序列,所述标签用于指示所述训练文本的语义成分;
通过所述第二编码层基于所述标签序列确定第二编码;
将所述第一编码和所述第二编码进行组合得到所述语义增强编码。
4.根据权利要求3所述的方法,其特征在于,通过所述第二编码层基于所述标签序列确定第二编码的步骤包括:
技术研发人员:史亚飞,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。