一种医疗文本处理方法及其装置、设备和存储介质制造方法及图纸

技术编号:22532061 阅读:10 留言:0更新日期:2019-11-13 09:18
本申请提供了一种医疗文本处理方法及其装置、设备和存储介质,所述方法包括:获取待处理医疗文本中的医疗实体,将医疗实体与第一语种医疗本体库基于人工智能的匹配模型进行匹配;当第一语种医疗本体库中未匹配到与医疗实体符合匹配条件的目标医疗术语时,将医疗实体进行分词处理,得到医疗实体分词;将医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;基于第一语种医疗本体库中与映射后的医疗实体符合匹配条件的目标医疗术语,确定医疗实体对应的概念标识符,建立医疗实体与概念标识符之间的映射关系。通过本申请,能够以成熟的医疗本体作为载体,将医疗实体映射到医疗本体中,实现医疗实体的归一化工作。

A medical text processing method and its device, equipment and storage medium

The application provides a medical text processing method and its device, device and storage medium. The method includes: obtaining the medical entity in the medical text to be processed, matching the medical entity with the medical ontology database of the first language based on the matching model of artificial intelligence; when the medical ontology database of the first language does not match the target medical term that meets the matching conditions with the medical entity The medical entity is segmented to get the medical entity segmentation; the medical entity segmentation with synonym in the medical entity is mapped to the corresponding synonym to get the mapped medical entity; based on the target medical terms matching the mapped medical entity in the first language medical ontology database, the corresponding concept identifier of the medical entity is determined and established Establish the mapping relationship between medical entity and concept identifier. Through the application, the mature medical ontology can be used as the carrier to map the medical entity into the medical ontology and realize the normalization of the medical entity.

【技术实现步骤摘要】
一种医疗文本处理方法及其装置、设备和存储介质
本申请涉及人工智能
,涉及但不限于一种医疗文本处理方法及其装置、设备和存储介质。
技术介绍
目前,人工智能的发展日新月异,医疗行业正在融入更多人工智能、传感技术等高科技,使医疗服务走向真正意义的智能化和信息化。智慧医疗及在线医疗为广大用户提供了多元化的就诊体验,正在被越来越多的用户接纳并应用。随着社交网络及智慧医疗的发展,医疗实体不断蕴含在各种类型的文本中,如医疗电子病历、医疗问答文本、医疗报告等。而在不同类型的文本中,相同医疗实体的表达也不尽相同,像“阿尔法细胞腺瘤”和“胰高血糖素瘤”、“手部湿疹”和“手湿疹”等,因此识别文本中的医疗实体只是理解医疗文本的第一步,如何将各种表达形式的医疗实体映射到规范的医疗本体中,在医疗文本理解中也起着至关重要的作用。传统方法利用基于医学词典的近似匹配或者启发式的字符串匹配规则,将文本中术语映射到医学本体概念,但是如果医学本体自身不够规范完善就难以得到准确的映射关系,进而无法为用户提供准确的医疗信息。
技术实现思路
本申请实施例提供一种医疗文本处理方法及其装置、设备和存储介质,能够以成熟的医疗本体作为载体,准确地将医疗实体映射到医疗本体中,实现对文本中医疗实体的归一化工作。本申请实施例的技术方案是这样实现的:本申请实施例提供一种医疗文本处理方法,包括:获取待处理医疗文本中的医疗实体,并将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。本申请提供一种基于人工智能的医疗文本处理方法,所述方法包括:获取待处理医疗文本中的医疗实体;将所述医疗实体输入基于人工智能的匹配模型,与第一语种医疗本体库进行匹配,以确定与所述医疗实体对应的概念标识符;其中:当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符;建立所述医疗实体与所述概念标识符的映射关系。本申请实施例提供一种医疗文本处理装置,所述装置包括:第一获取模块,用于获取待处理医疗文本中的医疗实体,并将所述医疗实体与第一语种医疗本体库进行匹配;第一分词模块,用于当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;映射模块,用于将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;第一确定模块,用于从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;第一映射建立模块,用于至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。本申请实施例提供一种医疗文本处理设备,所述设备至少包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。本申请实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。本申请实施例具有以下有益效果:在识别出医疗文本中的医疗实体后,基于相对完善的第一语种医疗本体库,当不能获取到医疗实体符合匹配条件的目标医疗术语时,将医疗实体进行切分,得到医疗实体分词,并将具有同义分词的医疗实体分词用对应的同义分词映射,得到映射后的医疗实体,并获取第一语种医疗本体库中与映射后的医疗实体符合匹配条件的目标医疗术语,再确定所述医疗实体对应的概念标识符,从而建立所述医疗实体与所述概念标识符的映射关系,通过分词映射的方式对医疗实体进行归一化,从而能够较为准确的将医疗实体映射到本体中,提升对医疗文本的理解。附图说明图1A为本申请实施例医疗文本处理方法的网络架构示意图;图1B为本申请实施例医疗文本处理的另一网络架构示意图;图2是本申请实施例提供的装置的一个可选的结构示意图;图3是本申请实施例提供的乘车服务处理方法的一个实现流程示意图;图4是本申请实施例对扩展医疗本体库进行歧义消除的实现流程示意图;图5为本申请实施例医疗文本处理方法的另一种实现流程示意图;图6为本申请实施例基于术语成分切分的标准化方法的实现流程示意图;图7为本申请实施例医疗本体的体系组成示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。1)医疗实体,是指针对医学文献中的疾病、症状、身体部位、组织名等命名实体。2)本体,是对概念化的精确描述。本体的核心价值在于定义了该领域内的术语和术语之间的逻辑推理关系。领域内的本体知识库是信息交互工程的基础,为信息交换的各方提供了一个对数据和概念的统一认识。3)概念,在医疗领域中,概念是指临床观念,由唯一的数字字符串表示。4)医疗术语,是对概念的语言指称。5)同义词,表达相同概念的不同术语,为同义词。6)医疗本体,医疗领域中概念的集合,医疗本体中存储有概念和医疗术语的对应关系。7)医疗实体标准化,又可以称为医疗实体归一化,是指为识别出来的医疗实体分配一个医疗本体中概念的标识符,该标识符可以唯一地标识该医疗实体,从而可以将该医疗实体映射到相应的医疗本体中。为了更好地理解本申请实施例中提供的医疗文本处理方法,首先对相关技术中医疗实体归一化的处理方案及存在的缺点进行说明。近年来,现有的研究已经证实社交数据中的医疗信息对于理解患者的健康状况有很大的帮助,然而,不同文本中使用的语言的词汇和语法的变异性本文档来自技高网
...

【技术保护点】
1.一种医疗文本处理方法,其特征在于,所述方法包括:获取待处理医疗文本中的医疗实体,将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。

【技术特征摘要】
1.一种医疗文本处理方法,其特征在于,所述方法包括:获取待处理医疗文本中的医疗实体,将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。2.根据权利要求1中所述的方法,其特征在于,所述方法还包括:将第二语种医疗本体库转换为第一语种,得到初始医疗本体库;对所述初始第一语种医疗本体库进行过滤和同义词扩展,得到扩展医疗本体库;对所述扩展医疗本体库进行歧义消除,得到第一语种医疗本体库。3.根据权利要求2中所述的方法,其特征在于,所述对所述初始医疗本体库进行过滤和同义词扩展,得到扩展医疗本体库,包括:从所述初始医疗本体库中,获取对应有至少两个医疗术语的目标概念标识符;基于构造出的分类器,对所述每个目标概念标识符和对应的至少两个医疗术语进行分类,得到分类结果;基于所述分类结果,删除每个目标概念标识符对应的满足删除条件的医疗术语;基于从网络中获取的与医疗相关的数据,确定初始医疗本体库中医疗术语的同义词;将所述同义词添加至初始医疗本体库,得到扩展医疗本体库。4.根据权利要求3中所述的方法,其特征在于,基于构造出的分类器,对所述每个目标概念标识符和对应的至少两个医疗术语进行分类,得到分类结果,包括:基于所述分类器,计算每个目标概念标识符和对应的至少两个医疗术语之间的第一分类值;将第一分类值低于第一分类阈值的医疗术语确定为不对应所述目标概念标识符的医疗术语;将第一分类值高于或者等于所述第一分类阈值的医疗术语确定为对应所述目标概念标识符的医疗术语。5.根据权利要求3中所述的方法,其特征在于,所述基于从预设的医疗网站中获取与医疗相关的数据,确定初始医疗本体库中医疗术语的同义词,包括:从网络中获取所述初始医疗本体库中各个医疗术语对应的词条信息;当所述医疗术语对应有至少两条词条信息时,分别获取所述至少两条词条信息中的初始同义词;当所述初始同义词在所述至少两条词条信息中出现的次数大于次数阈值时,将所述初始同义词确定为所述医疗术语的同义词。6.根据权利要求2中所述的方法,其特征在于,所述对所述扩展医疗本体库进行歧义消除,得到第一语种医疗本体库,包括:从所述扩展医疗本体库中,确定对应有至少两个概念标识符的第一医疗术语;基于构造的分类器,计算所述第一医疗术语与所述第一医疗术语对应的各个概念标识符之间的第二分类值;将第二分类值低于第二分类阈值的概念标识符与第一医疗术语的之间的对应关系删除,得到第一语种医疗本体库。7.根据权利要求1中所述的方法,其特征在于,所述方法还包括:按照预设的词性分类规则,确定各个医疗实体分词的类型;为所述各个医疗实体分词标注所述类型。8.根据权利要求7中所述的方法,其特征在于,所述至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,包括:获取所述目标医疗术语对应的概念标识符;当所述目标医疗术语对应有至少两个概念标识符时,获...

【专利技术属性】
技术研发人员:刘续乐胡海峰孙钟前杨巍
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1