用于信息提取的层次实体识别和语义建模框架制造技术

技术编号:25609212 阅读:35 留言:0更新日期:2020-09-12 00:04
从具有实体的层次实体图的文档提取实体。实体定义和实体识别定义由用户定制并且被提供。所述配置信息被用于生成(905)实体图,其然后被用于解析一个或多个文档。在一些实施方式中,得到的解析树可以结合用户反馈被用于生成被分配给定制节点中的一个或多个的机器学习模型的一个或多个训练实例作为实体识别定义。得到的树的解析可以利用懒惰解析方法执行,其中,只有用户感兴趣的部分在所述文档中被识别。

【技术实现步骤摘要】
【国外来华专利技术】用于信息提取的层次实体识别和语义建模框架
技术介绍
信息提取(特别地在临床文档中)常常要求采集对临床医师感兴趣的键值对。为了完成该任务,实体识别被用于识别键,并且其次,关系可以从所识别的实体提取以便识别文档中的有意义的实体。在提取有意义的相关实体的常规方法中,通常采用两种方法:即,实体提取(即,NER)和实体关系提取(即,ER)。现有方法要求一组手工(例如,用户策展)规则或启发法,常常以正则表达式的形式,以识别文档中的实体。正则表达式在许多方面中是有用的,因为其快速创建并且需要用于运行和测试样本的很少数据,并且还因为其在生成和呈现中是简明的。然而,当用于识别实体时的正则表达式在其简单性方面仍然是有限的。另一方面,机器学习方法是更鲁棒的,但是遭受确定经训练的机器模型是否实际上提取“真实”数据并且要求验证来验证给定模型是否适当地识别文档中的实体中的困难。此外,在临床文档中,一些信息可能难以单独利用基于规则或者基于机器学习的方法提取。例如,文档可以包括关于针对患者的多个肿瘤的信息,但是可以不包括特定数量的肿瘤。语义提取可能单独利用规则或机器学习方法证明是困难的,因为语义地,每个肿瘤可以语义地不同地描述,并且任何特定规则或经训练的机器学习模型可能不能单独识别语义变化。因此,已经识别先前方法中的多个缺陷。特别地,当前实体提取工具不能够由用户手工制作以适合特定类型的文档然而能够利用机器学习方法。此外,当前方法使将临床医师的知识并入到提取任务困难,并且临床医师专业知识和理解技术未适当地应用于机器学习方案。如果临时医师理解和专业知识适当地应用于机器学习模型或者结合机器学习模型应用,则可以提高性能,从而导致更好的结果和更好的性能。
技术实现思路
本说明书总体上涉及用于利用由用户提供的实体和实体识别定义解析用户的文档的方法。所述用户可以定义实体的层次,每个具有用于识别文档中的实体的方法。实体定义被编译并且实体图针对所述定义生成。所述用户可以随后调用解析器来识别来自文档的信息,其根据所述实体图和所识别的文档在运行时生成。所请求的实体和所请求的实体的子实体从所述文档解析,因此允许通过消除基于所述实体图建模整个文件的要求的大量的运行时间降低,而不管所述用户是否对所有所请求的实体具有兴趣。针对来自文档的实体的后续请求可以导致已经识别的实体被提供和/或可能导致基于所述实体图的文档的额外建模。在一些实施方式中,实体中的一个或多个(例如,经由其相应图节点)可以与用于识别所述实体的机器学习模型相关联。来自解析树的结果可以由所述用户注释并且还被用于生成针对一个或多个机器学习模型的训练实例,因此允许反馈回路改进实体识别定义的后续调用。在一些实施方式中,由一个或多个处理器执行的方法被提供并且包括:接收包括一个或多个定制实体定义的配置文件,并且每个定制实体定义包括实体识别定义;基于定制实体定义来生成实体图,所述实体图定义所述定制实体定义之间的关系;识别感兴趣文档;利用所述实体图来解析所述感兴趣文档以生成文档树;并且将所述文档树提供给用户。解析所述感兴趣文档可以包括:识别所述感兴趣文档中的多个令牌;针对所述令牌中的每个令牌确定文档实体,其中,所述文档实体匹配所述定制实体定义中的一个;并且基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系。在一些实施方式中,所述方法还可以包括:识别针对所述文档树的解析器;接收来自所述用户的解析请求;解析所述文档树以识别对所述解析请求进行响应的一个或多个实体;并且将指示响应实体的输出提供给所述用户。在那些实施方式中的一些中,只有对解析请求做出响应的实体可以包括在所述文档树中。在那些版本中的一些中,所述方法还可以包括以下步骤:接收来自所述用户的第二解析请求;解析所述文档树以识别对所述第二解析请求进行响应的一个或多个额外实体;并且提供指示所述额外实体的输出,其中,只有所述一个或多个实体和所述一个或多个额外实体被包括在解析树中。在一些实施方式中,所述方法还可以包括以下步骤:接收与所述文档树相关联的注释信息;基于所述文档树和所述注释信息来生成一个或多个训练实例;并且基于所述训练实例来更新所述实体识别定义中的一个或多个。在一些实施方式中,所述实体识别定义中的至少一个可以是机器学习模型。在一些实施方式中,解析所述感兴趣文档可以包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。在那些实施方式中的一些中,并行解析和融合可以根据映射和减少范式执行。在那些实施方式中的一些中,所解析的拷贝之间的冲突可以通过截断在所解析的拷贝中的至少一个中冲突的一个或多个实体来解决。在那些实施方式中的一些中,所解析的拷贝之间的冲突可以通过扩展父实体以包括所述父实体的所有一个或多个子实体来解决。在另一方面中,一种非瞬态计算机可读介质被提供并且包括指令,所述指令响应于由一个或多个处理器对指令的执行而使所述一个或多个处理器执行以下操作:接收配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;基于所述定制实体定义来生成实体图,其中,所述实体图定义所述定制实体定义之间的关系;识别感兴趣文档;利用所述实体图来解析所述感兴趣文档,其中,解析所述感兴趣文档包括:识别所述感兴趣文档中的多个令牌;针对所述令牌中的每个确定文档实体,其中,所述文档实体匹配所述定制实体定义之一;并且基于所述文档实体、所述定制实体定义、所述定制实体定义之间的关系和所述感兴趣文档来生成文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系;并且将所述文档树提供给用户。应当意识到,前述概念和在本文中更详细描述的额外概念的所有组合不被预期为本文所公开的主题的部分。例如,在本公开的末尾出现的要求保护的主题的所有组合被预期为本文所公开的主题的部分。附图说明图1是可以实施本文所公开的实施例的范例环境的框图。图2是实体和层次结构中的实体之间的关系的范例实体图的图示。图3是实体和定制实体识别定义的样本配置文件。图4图示了并行运行器和执行样本文本的模式分解器。图5图示了分解来自模式分解器的注释文本的多个实例的并行运行器。图6是基于图2的实体图完整注释的文本的图示。。图7是父实体与子实体之间的冲突的图示。图8是基于解析器命令在运行时间处分解的实体图中的实体的图示。图9是图示本文所描述的方法的范例实施方式的流程图。图10图示了计算系统的范例架构。具体实施方式从文档提取有意义的实体(特别地当实体以嵌套的方式分布在文档内时)常常可以证明是自动执行的困难任务。在一些实例中,可以采用基于规则的系统,其容易提供但是常常在可以由任何特定规则提取的实体中是过度严格的。例如,尽管用户可以识别用于提取特定域中的实体的一系列规则,但是用户将常常不具有用于可以描述实体的术语的每个可能变型的或有规则。因此,基于规则的方法常常未按比例。机器学习方法可以用作提本文档来自技高网
...

【技术保护点】
1.一种由一个或多个处理器实施的方法,包括:/n接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;/n基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;/n识别(910)感兴趣文档;/n利用所述实体图来解析所述感兴趣文档,其中,解析所述感兴趣文档包括:/n识别(915)所述感兴趣文档中的多个令牌,/n针对所述令牌中的每个令牌确定(920)文档实体,其中,所述文档实体匹配所述定制实体定义中的一个,并且/n基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成(925)文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系;并且/n将所述文档树提供(930)给用户。/n

【技术特征摘要】
【国外来华专利技术】20171225 CN PCT/CN2017/1182171.一种由一个或多个处理器实施的方法,包括:
接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;
基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;
识别(910)感兴趣文档;
利用所述实体图来解析所述感兴趣文档,其中,解析所述感兴趣文档包括:
识别(915)所述感兴趣文档中的多个令牌,
针对所述令牌中的每个令牌确定(920)文档实体,其中,所述文档实体匹配所述定制实体定义中的一个,并且
基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成(925)文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系;并且
将所述文档树提供(930)给用户。


2.根据权利要求1所述的方法,还包括:
识别针对所述文档树的解析器(116);
接收来自所述用户的解析请求;
解析所述文档树以识别对所述解析请求进行响应的一个或多个实体;并且
将指示响应实体的输出提供给所述用户。


3.根据权利要求2所述的方法,其中,只有对所述解析请求进行响应的所述实体被包括在所述文档树中。


4.根据权利要求3所述的方法,还包括:
接收来自所述用户的第二解析请求;
解析所述文档树以识别对所述第二解析请求进行响应的一个或多个额外实体;并且
提供指示所述额外实体的输出,其中,只有所述一个或多个实体和所述一个或多个额外实体被包括在所述文档树中。


5.根据权利要求1所述的方法,还包括:
接收与所述文档树相关联的注释信息;
基于所述文档树和所述注释信息来生成一个或多个训练实例;并且
基于所述训练实例来更新所述实体识别定义中的一个或多个。


6.根据权利要求1所述的方法,其中,所述实体识别定义中的至少一个是机器学习模型。


7.根据权利要求1所述的方法,其中,解析所述感兴趣文档包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。


8.根据权利要求7所述的方法,其中,所述并行解析和所述融合是根据映射和减少范式来执行的。


9.根据权利要求7所述的方法,其中,通过截断在所解析的拷贝中的至少一个拷贝中冲突的一个或多个实体来解决所解析的拷贝之间的冲突。


10.根据权利要求7所述的方法,其中,通过扩展父实体以包括所述父实体的一个或多个子实体中的全部来解决所解析的拷贝之间的冲突。


11.一种包括指令的至少一个非瞬态计算机可读介质,响应于由一个或多个处理器对所述指令的运行,所述指令使所述一个或多个处理器执行以下操作:
接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;
基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;
识别(910)感兴趣文档;
利用所述实体图来解析所述感兴趣文档,其中,...

【专利技术属性】
技术研发人员:胡意仪欧阳恩李作峰
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1