医疗票据中名称提取及标准化方法、装置、计算设备及存储介质制造方法及图纸

技术编号:31233578 阅读:13 留言:0更新日期:2021-12-08 10:12
本发明专利技术公开了一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,包括:获取医疗票据OCR识别结果;依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;根据名称内容范围与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。该方法和装置能够实现对医疗票据中关键词的快速准确提取和标准化。和标准化。和标准化。

【技术实现步骤摘要】
医疗票据中名称提取及标准化方法、装置、计算设备及存储介质


[0001]本专利技术属于文字提取领域,具体涉及一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,识别图片中所包含文字内容的OCR(Optical Character Recognition,光学字符识别)技术已经逐渐成熟并应用在各个领域中。图片OCR识别的结果一般为一个列表,列表中每个元素是OCR识别的一个单元,包含一个单元的文本内容,矩形包围框的位置(中心坐标,宽高,旋转角度,行号,列号)。
[0003]在保险理赔鉴定领域中,通过人工智能技术正确识别医疗票据中的文字并有效提取其中关键信息可以帮助理赔人员提高审核的效率与准确率,减少保险公司的人力成本,并缩短被保险人的理赔申请等待时间。
[0004]在保险理赔鉴定过程中,需要审核被保险人提供的住院相关的医疗票据,找到诊断名称和手术名称,并对诊断名称和手术名称进行标准化,以便审核诊疗过程中是否存在不合理的情况。由于经过OCR识别过后得到的文本信息是一种非结构化的信息,想要提取其中一部分需要的信息需要对非结构化的数据进行结构化或半结构化,这样才有利于提取到想要的信息。

技术实现思路

[0005]鉴于上述,本专利技术的目的是提供一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,以实现对医疗票据中名称的快速准确提取和标准化。
[0006]第一方面,实施例提供的一种医疗票据中名称提取及标准化方法,包括以下步骤
[0007]获取医疗票据OCR识别结果;
[0008]依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
[0009]对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
[0010]根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
[0011]从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。
[0012]在一个实施例中,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:
[0013]依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
[0014]依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
[0015]利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。
[0016]在一个实施例中,所述对OCR识别结果进行名称内容范围分析,以提取名称内容范围,包括:
[0017]针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;
[0018]以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;
[0019]所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序插入到关键词所在行。
[0020]针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词,对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;
[0021]针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词对应的名称内容范围;
[0022]将提取的关键词对应的名称内容范围作为一个块插入到关键词所在行。
[0023]针对表格排布的医疗票据对应的OCR识别结果,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容范围的结束行;
[0024]从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。
[0025]在一个实施例中,所述根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本,包括:
[0026]依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;
[0027]针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本。
[0028]在一个实施例中,所述从半结构化的关键词对应的内容文本中提取名称,包括:
[0029]依据深度学习网络构建名称提取模型,利用名称提取模型从半结构化的关键词对应的内容文本中提取名称;
[0030]优选地,名称提取模型采用Bert+CRF结构,利用Bert结构进行词嵌入特征提取,利
用CRF结构根据词嵌入特征进行词分类。
[0031]在一个实施例中,所述对提取的名称进行标准化处理,以得到名称对应的标准名称,包括:
[0032]采用bert模型构建标准化处理模型,过程为:
[0033]构建训练样本,训练样本包括正样本和负样本,其中,正样本为<名称
i
,标准名称
i
,1>,负样本为<名称
i
,标准名称
j
,0>,标准名称
i
和标准名称
j
来自于标准名称库,且标准名称
j
≠标准名称
i

[0034]利用训练样本优化bert模型参数,参数确定的bert模型作为标准化处理模型;
[0035]利用标准化处理模型对名称进行标准化处理以输出对应的标准名称,过程为:
[0036]将待标准化的名称与多个标准名称分别组成多个待测样本输入至标准化处理模型,提取计算结果为1的测试样本包含的标准名称作为待标准化的名称的标准化结果。
[0037]第二方面,实施例提供了一种医疗票据中名称提取及标准化装置,包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗票据中名称提取及标准化方法,其特征在于,包括以下步骤:获取医疗票据OCR识别结果;依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。2.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。3.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,包括:针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序插入到关键词所在行;针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词,对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应的名称内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词对应的名称内容范围;将提取的关键词对应的名称内容范围作为一个块插入到关键词所在行。针对表格排布的医疗票据对应的OCR识别结果,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容
范围的结束行;从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。4.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特...

【专利技术属性】
技术研发人员:赵鑫谭谞
申请(专利权)人:杭州米数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1