用于共指消解、信息提取以及相似文档检索的装置和方法制造方法及图纸

技术编号:16885849 阅读:52 留言:0更新日期:2017-12-27 03:39
本发明专利技术公开了用于共指消解、信息提取以及相似文档检索的装置和方法。所述用于共指消解的装置包括:被构造为从输入的医学文档中获取第一医学实体和第二医学实体的单元;被构造为从所述医学文档中,检测所述第一医学实体的诊断状态、所述第一医学实体的至少一个属性、所述第二医学实体的诊断状态以及所述第二医学实体的至少一个属性的单元;被构造为基于所检测到的诊断状态和属性,确定所述第一医学实体与所述第二医学实体之间的兼容性的单元;以及被构造为基于所确定的兼容性,确定所述第一医学实体和第二医学实体是否表示同一医学对象的单元。采用本发明专利技术的优点,将提高共指消解的精确度。

Devices and methods for common finger digestion, information extraction, and similar document retrieval

The invention discloses a device and a method for common finger digestion, information extraction and similar document retrieval. For the coreference resolution device includes: configured to obtain the first medical entity and second medical entities from the input document in the medical unit; be constructed from the medical document, at least one attribute detection unit of the first medical diagnostic entity state, the first medical entity to less a property, the second medical diagnostic entity state and the second medical entities; diagnosis is constructed for the state and property based on the detected, determine the first medical entity and the second medical entity compatibility unit; and is configured to determine compatibility based on determining whether the the first medical entity and second medical entities that represent the same object of the medical unit. With the advantages of the invention, the accuracy of the common finger digestion will be improved.

【技术实现步骤摘要】
用于共指消解、信息提取以及相似文档检索的装置和方法
本专利技术涉及自然语言处理(NLP),尤其涉及例如用于共指消解(co-referenceresolution)、信息提取以及相似文档检索的装置和方法。
技术介绍
目前,电子医学文档的使用和管理变得越来越流行。基于电子医学文档的管理,可以开发将使医生受益的许多应用,诸如相似医学文档检索、诊断支持等。通过针对医学文档执行文本信息提取技术,来实现上述应用。经由文本信息提取技术获得的结果的表达被称为医学实体。通常,一个医学文档中的医学实体可以表示几个不同的医学对象,其中,医学对象可以是具体的物理对象(诸如从检查结果诊断出的异常等),或抽象的医学概念(诸如由医生判断出的疾病等)。例如,一些医学实体可以表示从检查结果诊断出的异常(例如肿瘤),一些医学实体可以表示患者的疾病等。也就是说,对于医学文档中的一个医学对象(例如肿瘤),医生可以使用几个不同的表达(即医学实体)来记录。因此,需要有能够确定不同的表达(即两个不同的医学实体)是否表示同一医学对象的技术。共指消解是一种重要的技术。美国专利US8457950已公开了一种用于共指消解的方法,其包括:本文档来自技高网...
用于共指消解、信息提取以及相似文档检索的装置和方法

【技术保护点】
一种用于共指消解的装置,所述用于共指消解的装置包括:获取单元,其被构造为从输入的医学文档中获取第一医学实体和第二医学实体;诊断特征检测单元,其被构造为从所述医学文档中,检测所述第一医学实体的诊断状态、所述第二医学实体的诊断状态、所述第一医学实体的至少一个属性以及所述第二医学实体的至少一个属性;兼容性确定单元,其被构造为基于所检测到的诊断状态和属性,确定所述第一医学实体与所述第二医学实体之间的兼容性;以及共指消解单元,其被构造为基于所确定的兼容性,确定所述第一医学实体和所述第二医学实体是否表示同一医学对象,其中,诊断状态代表医学实体在医学文档中的诊断处理中的位置;属性代表医学实体在医学文档中的诊...

【技术特征摘要】
1.一种用于共指消解的装置,所述用于共指消解的装置包括:获取单元,其被构造为从输入的医学文档中获取第一医学实体和第二医学实体;诊断特征检测单元,其被构造为从所述医学文档中,检测所述第一医学实体的诊断状态、所述第二医学实体的诊断状态、所述第一医学实体的至少一个属性以及所述第二医学实体的至少一个属性;兼容性确定单元,其被构造为基于所检测到的诊断状态和属性,确定所述第一医学实体与所述第二医学实体之间的兼容性;以及共指消解单元,其被构造为基于所确定的兼容性,确定所述第一医学实体和所述第二医学实体是否表示同一医学对象,其中,诊断状态代表医学实体在医学文档中的诊断处理中的位置;属性代表医学实体在医学文档中的诊断项目;并且兼容性代表医学实体和其他医学实体表示同一医学对象的可能性。2.根据权利要求1所述的用于共指消解的装置,其中,对于一个医学实体,所述诊断特征检测单元:从所述医学文档中提取与所述医学实体有关的预定义的内容;并且通过分析所提取的内容,来识别所述医学实体的诊断状态。3.根据权利要求1所述的用于共指消解的装置,其中,所述兼容性确定单元包括:兼容因素确定单元,其被构造为基于所检测到的诊断状态和属性,确定所述第一医学实体与所述第二医学实体之间的兼容因素,其中,所述兼容因素代表所述第一医学实体与所述第二医学实体之间的语义冲突;以及兼容性判断单元,其被构造为基于所确定的兼容因素,判断所述第一医学实体与所述第二医学实体之间的兼容性。4.根据权利要求3所述的用于共指消解的装置,其中,所述兼容因素包括:所述第一医学实体的诊断状态、所述第一医学实体的属性、所述第二医学实体的诊断状态以及所述第二医学实体的属性当中的语义值的冲突,以及所述第一医学实体的诊断状态、所述第一医学实体的属性、所述第二医学实体的诊断状态以及所述第二医学实体的属性当中的语义序列的冲突。5.根据权利要求4所述的用于共指消解的装置,其中,所述兼容因素确定单元:计算以下特征中的至少一者:所述第一医学实体与所述第二医学实体之间的距离;所述第一医学实体的诊断状态与所述第二医学实体的诊断状态之间的序列;所述第一医学实体的诊断状态与所述第二医学实体的诊断状态之间的距离;所述第一医学实体和所述第二医学实体的属性的类型;所述第一医学实体的属性的类型与所述第二医学实体的属性的类型之间的序列;类型属于所述第一医学实体和所述第二医学实体二者的属性的值,并且基于所计算出的特征和预定的规则,确定所述语义值的冲突以及所述语义序列的冲突。6.根据权利要求4所述的用于共指消解的装置,其中,所述兼容因素确定单元:计算以下特征中的至少一者:所述第一医学实体与所述第二医学实体之间的距离;所述第一医学实体的诊断状态与所述第二医学实体的诊断状态之间的序列;所述第一医学实体的诊断状态与所述第二医学实体的诊断状态之间的距离;所述第一医学实体和所述第二医学实体的属性的类型;所述第一医学实体的属性的类型与所述第二医学实体的属性的类型之间的序列;类型属于所述第一医学实体和所述第二医学实体二者的属性的值,并且基于所计算出的特征和预生成的模型,确定所述语义值的冲突以及所述语义序列的冲突。7.根据权利要求4所述的用于共指消解的装置,其中,在所述语义值以及所述语义序列不冲突的情况下,所述兼容性判断单元判断出所述第一医学实体与所述第二医学实体兼容。8.根据权利要求1所述的用于共指消解的装置,其中,在所确定的兼容性为兼容的情况下,所述共指消解单元确定所述第一医学实体和所述第二医学实体表示同一医学对象。9.根据权利要求1所述的用于共指消解的装置,所述用于共指消解的装置还包括:第一相似性测度确定单元,其被构造为基于所述医学文档中的所述第一医学实体与所述第二医学实体之间的词特征的相似性测度,并且基于所述医学文档中的所述第一医学实体和所述第二医学实体的上下文的相似性测度,确定所述第一医学实体与所述第二医学实体之间的第一相似性测度,其中,在所述第一相似性测度确定单元确定所述第一医学实体与所述第二医学实体之间的所述第一相似性测度大于或等于阈值的情况下,所述诊断特征检测单元检测所述第一医学实体的诊断状态、所述第一医学实体的属性、所述第二医学实体的诊断状态以及所述第二医学实体的属性。10.根据权利要求1所述的用于共指消解的装置,所述用于共指消解的装置还包括:第二相似性测度确定单元,其被构造为基于所述医学文档中的所述第一医学实体与所述第二医学实体之间的词特征的相似性测度,并且基于所述医学文档中的所述第一医学实体和所述第二医学实体的上下文的相似性测度,确定所述第一医学实体与所述第二医学实体之间的第二相似性测度,其中,所述共指消解单元基于所确定的第二相似性测度和所确定的兼容性,确定所述第一医学实体和所述第二医学实体是否表示同一医学对象。11.一种用于信息提取的装置,所述用于信息提取的装置包括:获得单元,其被构造为获得医学文档;医学实体提取单元,其被构造为从所获得的医学文档中提取至少两个医学实体;根据权利要求1至10中任一项所述的用于共指消解的装置,其被构造为确定所述医学实体中的任何两个医学实体是否表示同一医学对象;以及医学实体合并单元,其被构造为合并彼此共指的医学实体的诊断状态以及属性。12.根据权利要求11所述的用于信...

【专利技术属性】
技术研发人员:张碧川黄耀海
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1