【技术实现步骤摘要】
规范化生物医学实体提及的方法和装置以及存储介质
[0001]本公开内容总体上涉及知识发现,更具体的,涉及用于规范化生物医学实体提及的方法、装置以及存储介质。
技术介绍
[0002]随着生物医学领域技术的飞速发展,诸如科技论文、专利文献等的各种生物医学领域文献也日益增多。这促进了生物医学领域的文本挖掘技术的发展。文献中提及的生物医学术语被称为生物医学实体提及。文本挖掘技术包括规范化生物医学实体提及。生物医学实体提及的规范化任务的目的是为生物医学文献中的实体提及确定其在知识图谱中的相应唯一标识符,从而建立起该实体提及与知识图谱之间的联系。建立这种联系对生物医学领域的技术研究是有意义的。
[0003]常规实体提及规范化方法通常包含两个模块:候选生成和候选排序。现有常规实体提及规范化方法虽然在生物医学实体规范化方面取得了良好的效果,但仍然存在一定的局限性。首先,生成的候选名称是相似的,因此仅仅根据候选名称很难确定正确的候选;其次,由于候选和提及是同一领域内的实体,候选的上下文等信息也是相似的,所述即使利用上下文信息也难以对候 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的用于规范化生物医学实体提及的方法,其特征在于,包括:接收所述生物医学实体提及作为待映射提及;通过检索生物医学词典生成所述待映射提及的候选概念集;确定所述候选概念集中是否包括与所述待映射提及相同的概念;在确定结果为“否”的情况下,通过针对候选概念集中的每个候选概念,基于从所述生物医学词典获得的相关概念集扩展该候选概念来更新所述候选概念集;通过确定更新的候选概念集中每个候选概念与所述待映射提及的语义相似度来获得语义相似度集;以及将所述待映射提及映射到所述语义相似度集中的最大语义相似度所对应的候选概念;其中,所述相关概念集包含相应候选概念的同义概念,并且在相应候选概念具有相应父概念的情况下,所述相关概念集还包含所述相应父概念及所述相应父概念的同义概念。2.根据权利要求1所述的方法,其中,通过检索生物医学词典生成所述待映射提及的候选概念集包括对所述待映射提及进行预处理;并且所述预处理包括以下中的至少一个:将所述待映射提及中的缩写转换为全称;将所述待映射提及中的非阿拉伯数字替换为阿拉伯数字;以及将复数形式的待映射提及转换为单数形式的实体。3.根据权利要求1所述的方法,其中,通过针对候选概念集中的每个候选概念,基于从所述生物医学词典获得的相关概念集扩展该候选概念来更新所述候选概念集包括:基于所述候选概念集中的选定候选概念的相关概念集中的单词的词频确定按词频降序排列的单词序列;更新所述单词序列;以及尝试通过基于所述选定候选概念选择所述单词序列中的单词添加到所述选定候选概念的末尾来扩展该候选概念。4.根据权利要求3所述的方法,其中,更新所述单词序列包括:将所述单词序列中的在所述待映射提及中出现的单词设置为所述单词序列的第一个单词。5.根据权利要求3所述的方法,其中,尝试通过选择所述单词序列中的单词添加到所述选定候选概念的末尾来扩展该候选概念包括:将所述单词序列中的首个未在所述选定候选概念中出现的单词添加到所述选定候选概念的末尾以更新所述选定候选概念。6.根据权利要求3所述的方法,其中,通过针对候选概念集中的每个候选概念,基于从所述生物医学词典获得的相关概念集扩展该候选概念来更新所述候选概念集包括:确定所述选定候选概念的单词数是否大于长度阈值;以及在所述选定候选概念的单词数大于所述长度阈值的情况下,结束扩展该选定候选概念。7.根据权利要求1所述的方法,其中,使用卷积神经网络模型确定所述更新的候选概念集中每个候选概念与所述待映射提及的相似度。
8.根据权利要求7所述的方法,其中,所述卷积神经网络...
【专利技术属性】
技术研发人员:房璐,郑仲光,曹奕翎,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。