【技术实现步骤摘要】
【国外来华专利技术】用于信息提取的层次实体识别和语义建模框架
技术介绍
信息提取(特别地在临床文档中)常常要求采集对临床医师感兴趣的键值对。为了完成该任务,实体识别被用于识别键,并且其次,关系可以从所识别的实体提取以便识别文档中的有意义的实体。在提取有意义的相关实体的常规方法中,通常采用两种方法:即,实体提取(即,NER)和实体关系提取(即,ER)。现有方法要求一组手工(例如,用户策展)规则或启发法,常常以正则表达式的形式,以识别文档中的实体。正则表达式在许多方面中是有用的,因为其快速创建并且需要用于运行和测试样本的很少数据,并且还因为其在生成和呈现中是简明的。然而,当用于识别实体时的正则表达式在其简单性方面仍然是有限的。另一方面,机器学习方法是更鲁棒的,但是遭受确定经训练的机器模型是否实际上提取“真实”数据并且要求验证来验证给定模型是否适当地识别文档中的实体中的困难。此外,在临床文档中,一些信息可能难以单独利用基于规则或者基于机器学习的方法提取。例如,文档可以包括关于针对患者的多个肿瘤的信息,但是可以不包括特定数量的肿瘤。语义提取可能单独利用规则或机器学习方法证明是困难的,因为语义地,每个肿瘤可以语义地不同地描述,并且任何特定规则或经训练的机器学习模型可能不能单独识别语义变化。因此,已经识别先前方法中的多个缺陷。特别地,当前实体提取工具不能够由用户手工制作以适合特定类型的文档然而能够利用机器学习方法。此外,当前方法使将临床医师的知识并入到提取任务困难,并且临床医师专业知识和理解技术未适当地应用于机器学习方案。如果临时医师理解和专业知识适当地应用于机 ...
【技术保护点】
1.一种由一个或多个处理器实施的方法,包括:/n接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;/n基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;/n识别(910)感兴趣文档;/n利用所述实体图来解析所述感兴趣文档,其中,解析所述感兴趣文档包括:/n识别(915)所述感兴趣文档中的多个令牌,/n针对所述令牌中的每个令牌确定(920)文档实体,其中,所述文档实体匹配所述定制实体定义中的一个,并且/n基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成(925)文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系;并且/n将所述文档树提供(930)给用户。/n
【技术特征摘要】
【国外来华专利技术】20171225 CN PCT/CN2017/1182171.一种由一个或多个处理器实施的方法,包括:
接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;
基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;
识别(910)感兴趣文档;
利用所述实体图来解析所述感兴趣文档,其中,解析所述感兴趣文档包括:
识别(915)所述感兴趣文档中的多个令牌,
针对所述令牌中的每个令牌确定(920)文档实体,其中,所述文档实体匹配所述定制实体定义中的一个,并且
基于所述文档实体、所述定制实体定义、所述定制实体定义之间的所述关系和所述感兴趣文档来生成(925)文档树,其中,所述文档树包括所述文档实体和所述文档实体之间的关系;并且
将所述文档树提供(930)给用户。
2.根据权利要求1所述的方法,还包括:
识别针对所述文档树的解析器(116);
接收来自所述用户的解析请求;
解析所述文档树以识别对所述解析请求进行响应的一个或多个实体;并且
将指示响应实体的输出提供给所述用户。
3.根据权利要求2所述的方法,其中,只有对所述解析请求进行响应的所述实体被包括在所述文档树中。
4.根据权利要求3所述的方法,还包括:
接收来自所述用户的第二解析请求;
解析所述文档树以识别对所述第二解析请求进行响应的一个或多个额外实体;并且
提供指示所述额外实体的输出,其中,只有所述一个或多个实体和所述一个或多个额外实体被包括在所述文档树中。
5.根据权利要求1所述的方法,还包括:
接收与所述文档树相关联的注释信息;
基于所述文档树和所述注释信息来生成一个或多个训练实例;并且
基于所述训练实例来更新所述实体识别定义中的一个或多个。
6.根据权利要求1所述的方法,其中,所述实体识别定义中的至少一个是机器学习模型。
7.根据权利要求1所述的方法,其中,解析所述感兴趣文档包括并行解析所述感兴趣文档的多个拷贝并且融合所解析的拷贝。
8.根据权利要求7所述的方法,其中,所述并行解析和所述融合是根据映射和减少范式来执行的。
9.根据权利要求7所述的方法,其中,通过截断在所解析的拷贝中的至少一个拷贝中冲突的一个或多个实体来解决所解析的拷贝之间的冲突。
10.根据权利要求7所述的方法,其中,通过扩展父实体以包括所述父实体的一个或多个子实体中的全部来解决所解析的拷贝之间的冲突。
11.一种包括指令的至少一个非瞬态计算机可读介质,响应于由一个或多个处理器对所述指令的运行,所述指令使所述一个或多个处理器执行以下操作:
接收(900)配置文件,其中,所述配置文件包括一个或多个定制实体定义,并且其中,每个定制实体定义包括实体识别定义;
基于所述定制实体定义来生成(905)实体图,其中,所述实体图定义所述定制实体定义之间的关系;
识别(910)感兴趣文档;
利用所述实体图来解析所述感兴趣文档,其中,...
【专利技术属性】
技术研发人员:胡意仪,欧阳恩,李作峰,
申请(专利权)人:皇家飞利浦有限公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。