本公开属于计算机技术领域,涉及一种医学实体信息的抽取方法、装置、计算机存储介质和电子设备。该方法包括:获取文本,对所述文本进行预处理以形成文本向量;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。
【技术实现步骤摘要】
医学实体信息的抽取方法、装置、存储介质及电子设备
本公开涉及计算机
,具体而言,涉及一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备。
技术介绍
随着计算机科学领域和人工智能领域的蓬勃发展,命名实体识别成为自然语言处理领域中的一个重点研究问题。命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础;命名实体识别是指从文本中识别出相关实体,并标注出其位置以及类型。目前,对文本中的命名实体进行识别的方法主要是人工标注实体信息,基于规则和词典的方法、基于统计的方法或者是基于机器模型的方法进行实体识别,然而由于上述识别方法均存在相应的不足,使得实体信息抽取的召回率和准确率较低。以对保险理赔文本中的医学实体信息的抽取为例,人工标注的效率无法满足业务发展需求,而通过规则、词典、模型抽取实体信息时,对于同一医学实体可能存在多个不同的名称,不同的医务工作者在撰写医学文本时对同一医学实体可能采用不同的简称等情况,可能不能准确识别保险理赔文本中的医学实体信息,进而导致医学实体信息抽取的召回率和准确率较低。因此,本领域需要一种新的医学实体信息的抽取方法和装置。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的医学实体信息提取的召回率和准确率低的问题。根据本公开的一个方面,提供一种医学实体信息的抽取方法,包括:获取文本,对所述文本进行预处理以形成文本向量;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。在本公开的示例性实施例中,获取文本,对所述文本进行预处理以形成文本向量,包括:统计所述文本的字符长度;将所述文本的字符长度与第一预设值进行比较;根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。在本公开的示例性实施例中,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。在本公开的示例性实施例中,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:将所述第二文本中的数字和英文字符用特殊字符替换。在本公开的示例性实施例中,所述多个模块包括第一模型、第二模型、第三模型和第四模型;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;将所述文本向量输入至所述第三模型,通过所述第三模型根据预设规则对所述文本向量进行实体抽取,以获得所述文本向量中的第三医学实体信息;并且,将所述文本向量输入至所述第四模型,通过所述第四模型将所述文本向量与预设字典进行匹配,以获取所述文本向量中的第四医学实体信息。在本公开的示例性实施例中,所述第一模型为条件随机场模型,所述第二模型为双向长短期记忆网络-条件随机场模型,所述第三模型为规则模型,所述第四模型为字典模型。在本公开的示例性实施例中,将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息,包括:将所述第一医学实体信息、所述第二医学实体信息、所述第三医学实体信息和所述第四医学实体信息融合,以获取融合医学实体信息;去除所述融合医学实体信息中重复的医学实体信息,以获取所述目标医学实体信息。在本公开的示例性实施例中,在将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息之前,所述方法还包括:获取训练数据集,并对所述训练数据集进行人工标注,以获取与所述训练数据集对应的标注数据集;根据所述训练数据集和所述标注数据集对所述多个不同的模型进行训练。根据本公开的一个方面,提供一种医学实体信息的抽取装置,包括:文本向量化模块,用于获取文本,对所述文本进行预处理以形成文本向量;实体信息获取模块,用于将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;实体信息处理模块,用于将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的实体抽取的方法。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的实体抽取的方法。本公开通过多个不同的模型分别处理相同的文本向量,获取该文本向量中的医学实体信息,然后将获得的医学实体信息进行融合和去重,以获取目标医学实体信息。本公开一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出一种医学实体信息的抽取方法的流程示意图;图2示意性示出一种医学实体信息的抽取方法的应用场景示例图;图3示意性示出一种文本预处理的流程示意图;图4示意性示出一种第二文本中文字处理的流程示意图;图5示意性示出一种医学实体信息的融合和去重的流程示意图;图6示意性示本文档来自技高网...
【技术保护点】
1.一种医学实体信息的抽取方法,其特征在于,包括:/n获取文本,对所述文本进行预处理以形成文本向量;/n将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;/n将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。/n
【技术特征摘要】
1.一种医学实体信息的抽取方法,其特征在于,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
2.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。
3.根据权利要求2所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。
4.根据权利要求2或3所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
将所述第二文本中的数字和英文字符用特殊字符替换。
5.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,所述多个模块包括第一模型、第二模型、第三模型和第四模型;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:
从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;
将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;
将所...
【专利技术属性】
技术研发人员:凤博,郭潇宇,
申请(专利权)人:天津幸福生命科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。