The application provides a medical text processing method and its device, device and storage medium. The method includes: obtaining the medical entity in the medical text to be processed, matching the medical entity with the medical ontology database of the first language based on the matching model of artificial intelligence; when the medical ontology database of the first language does not match the target medical term that meets the matching conditions with the medical entity The medical entity is segmented to get the medical entity segmentation; the medical entity segmentation with synonym in the medical entity is mapped to the corresponding synonym to get the mapped medical entity; based on the target medical terms matching the mapped medical entity in the first language medical ontology database, the corresponding concept identifier of the medical entity is determined and established Establish the mapping relationship between medical entity and concept identifier. Through the application, the mature medical ontology can be used as the carrier to map the medical entity into the medical ontology and realize the normalization of the medical entity.
【技术实现步骤摘要】
一种医疗文本处理方法及其装置、设备和存储介质
本申请涉及人工智能
,涉及但不限于一种医疗文本处理方法及其装置、设备和存储介质。
技术介绍
目前,人工智能的发展日新月异,医疗行业正在融入更多人工智能、传感技术等高科技,使医疗服务走向真正意义的智能化和信息化。智慧医疗及在线医疗为广大用户提供了多元化的就诊体验,正在被越来越多的用户接纳并应用。随着社交网络及智慧医疗的发展,医疗实体不断蕴含在各种类型的文本中,如医疗电子病历、医疗问答文本、医疗报告等。而在不同类型的文本中,相同医疗实体的表达也不尽相同,像“阿尔法细胞腺瘤”和“胰高血糖素瘤”、“手部湿疹”和“手湿疹”等,因此识别文本中的医疗实体只是理解医疗文本的第一步,如何将各种表达形式的医疗实体映射到规范的医疗本体中,在医疗文本理解中也起着至关重要的作用。传统方法利用基于医学词典的近似匹配或者启发式的字符串匹配规则,将文本中术语映射到医学本体概念,但是如果医学本体自身不够规范完善就难以得到准确的映射关系,进而无法为用户提供准确的医疗信息。
技术实现思路
本申请实施例提供一种医疗文本处理方法及其装置、设备和存储介质,能够以成熟的医疗本体作为载体,准确地将医疗实体映射到医疗本体中,实现对文本中医疗实体的归一化工作。本申请实施例的技术方案是这样实现的:本申请实施例提供一种医疗文本处理方法,包括:获取待处理医疗文本中的医疗实体,并将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有 ...
【技术保护点】
1.一种医疗文本处理方法,其特征在于,所述方法包括:获取待处理医疗文本中的医疗实体,将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。
【技术特征摘要】
1.一种医疗文本处理方法,其特征在于,所述方法包括:获取待处理医疗文本中的医疗实体,将所述医疗实体与第一语种医疗本体库进行匹配;当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时,对所述医疗实体进行分词处理,得到多个医疗实体分词;将所述医疗实体中具有同义分词的医疗实体分词,映射为对应的同义分词,得到映射后的医疗实体;从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语;至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,建立所述医疗实体与所述概念标识符的映射关系。2.根据权利要求1中所述的方法,其特征在于,所述方法还包括:将第二语种医疗本体库转换为第一语种,得到初始医疗本体库;对所述初始第一语种医疗本体库进行过滤和同义词扩展,得到扩展医疗本体库;对所述扩展医疗本体库进行歧义消除,得到第一语种医疗本体库。3.根据权利要求2中所述的方法,其特征在于,所述对所述初始医疗本体库进行过滤和同义词扩展,得到扩展医疗本体库,包括:从所述初始医疗本体库中,获取对应有至少两个医疗术语的目标概念标识符;基于构造出的分类器,对所述每个目标概念标识符和对应的至少两个医疗术语进行分类,得到分类结果;基于所述分类结果,删除每个目标概念标识符对应的满足删除条件的医疗术语;基于从网络中获取的与医疗相关的数据,确定初始医疗本体库中医疗术语的同义词;将所述同义词添加至初始医疗本体库,得到扩展医疗本体库。4.根据权利要求3中所述的方法,其特征在于,基于构造出的分类器,对所述每个目标概念标识符和对应的至少两个医疗术语进行分类,得到分类结果,包括:基于所述分类器,计算每个目标概念标识符和对应的至少两个医疗术语之间的第一分类值;将第一分类值低于第一分类阈值的医疗术语确定为不对应所述目标概念标识符的医疗术语;将第一分类值高于或者等于所述第一分类阈值的医疗术语确定为对应所述目标概念标识符的医疗术语。5.根据权利要求3中所述的方法,其特征在于,所述基于从预设的医疗网站中获取与医疗相关的数据,确定初始医疗本体库中医疗术语的同义词,包括:从网络中获取所述初始医疗本体库中各个医疗术语对应的词条信息;当所述医疗术语对应有至少两条词条信息时,分别获取所述至少两条词条信息中的初始同义词;当所述初始同义词在所述至少两条词条信息中出现的次数大于次数阈值时,将所述初始同义词确定为所述医疗术语的同义词。6.根据权利要求2中所述的方法,其特征在于,所述对所述扩展医疗本体库进行歧义消除,得到第一语种医疗本体库,包括:从所述扩展医疗本体库中,确定对应有至少两个概念标识符的第一医疗术语;基于构造的分类器,计算所述第一医疗术语与所述第一医疗术语对应的各个概念标识符之间的第二分类值;将第二分类值低于第二分类阈值的概念标识符与第一医疗术语的之间的对应关系删除,得到第一语种医疗本体库。7.根据权利要求1中所述的方法,其特征在于,所述方法还包括:按照预设的词性分类规则,确定各个医疗实体分词的类型;为所述各个医疗实体分词标注所述类型。8.根据权利要求7中所述的方法,其特征在于,所述至少基于所述目标医疗术语,确定所述医疗实体对应的概念标识符,包括:获取所述目标医疗术语对应的概念标识符;当所述目标医疗术语对应有至少两个概念标识符时,获...
【专利技术属性】
技术研发人员:刘续乐,胡海峰,孙钟前,杨巍,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。