医学实体信息的抽取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24996895 阅读:49 留言:0更新日期:2020-07-24 17:59
本公开属于计算机技术领域,涉及一种医学实体信息的抽取方法、装置、计算机存储介质和电子设备。该方法包括:获取文本,对所述文本进行预处理以形成文本向量;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。

【技术实现步骤摘要】
医学实体信息的抽取方法、装置、存储介质及电子设备
本公开涉及计算机
,具体而言,涉及一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备。
技术介绍
随着计算机科学领域和人工智能领域的蓬勃发展,命名实体识别成为自然语言处理领域中的一个重点研究问题。命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础;命名实体识别是指从文本中识别出相关实体,并标注出其位置以及类型。目前,对文本中的命名实体进行识别的方法主要是人工标注实体信息,基于规则和词典的方法、基于统计的方法或者是基于机器模型的方法进行实体识别,然而由于上述识别方法均存在相应的不足,使得实体信息抽取的召回率和准确率较低。以对保险理赔文本中的医学实体信息的抽取为例,人工标注的效率无法满足业务发展需求,而通过规则、词典、模型抽取实体信息时,对于同一医学实体可能存在多个不同的名称,不同的医务工作者在撰写医学文本时对同一医学实体可能采用不同的简称等情况,可能不能准确识别保险理赔文本中的医学实体信息,进而导致医学实体信息抽取的召回率和准确率较低。因此,本文档来自技高网...

【技术保护点】
1.一种医学实体信息的抽取方法,其特征在于,包括:/n获取文本,对所述文本进行预处理以形成文本向量;/n将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;/n将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。/n

【技术特征摘要】
1.一种医学实体信息的抽取方法,其特征在于,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。


2.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。


3.根据权利要求2所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。


4.根据权利要求2或3所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
将所述第二文本中的数字和英文字符用特殊字符替换。


5.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,所述多个模块包括第一模型、第二模型、第三模型和第四模型;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:
从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;
将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;
将所...

【专利技术属性】
技术研发人员:凤博郭潇宇
申请(专利权)人:天津幸福生命科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1