医疗票据中名称提取及标准化方法、装置、计算设备及存储介质制造方法及图纸

技术编号：31233578 阅读：30 留言：0更新日期：2021-12-08 10:12

本发明专利技术公开了一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质，包括：获取医疗票据OCR识别结果；依据OCR识别结果对医疗票据进行分类，以确定医疗票据类型；对OCR识别结果基于关键词进行名称内容范围分析，以提取名称内容范围；根据名称内容范围与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理，以得到半结构化的关键词对应的内容文本；从半结构化的关键词对应内容文本中提取名称，并对提取的名称进行标准化处理，以得到名称对应的标准名称。该方法和装置能够实现对医疗票据中关键词的快速准确提取和标准化。和标准化。和标准化。

全部详细技术资料下载

【技术实现步骤摘要】
医疗票据中名称提取及标准化方法、装置、计算设备及存储介质

[0001]本专利技术属于文字提取领域，具体涉及一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展，识别图片中所包含文字内容的OCR(Optical Character Recognition，光学字符识别)技术已经逐渐成熟并应用在各个领域中。图片OCR识别的结果一般为一个列表，列表中每个元素是OCR识别的一个单元，包含一个单元的文本内容，矩形包围框的位置(中心坐标，宽高，旋转角度，行号，列号)。
[0003]在保险理赔鉴定领域中，通过人工智能技术正确识别医疗票据中的文字并有效提取其中关键信息可以帮助理赔人员提高审核的效率与准确率，减少保险公司的人力成本，并缩短被保险人的理赔申请等待时间。
[0004]在保险理赔鉴定过程中，需要审核被保险人提供的住院相关的医疗票据，找到诊断名称和手术名称，并对诊断名称和手术名称进行标准化，以便审核诊疗过程中是否存在不合理的情况。由于经过OCR识别过后得到的文本信...

【技术保护点】

【技术特征摘要】
1.一种医疗票据中名称提取及标准化方法，其特征在于，包括以下步骤：获取医疗票据OCR识别结果；依据OCR识别结果对医疗票据进行分类，以确定医疗票据类型；对OCR识别结果基于关键词进行名称内容范围分析，以提取名称内容范围；根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理，以得到半结构化的关键词对应的内容文本；从半结构化的关键词对应内容文本中提取名称，并对提取的名称进行标准化处理，以得到名称对应的标准名称。2.根据权利要求1所述的医疗票据中名称提取及标准化方法，其特征在于，所述依据OCR识别结果对医疗票据进行分类，以确定医疗票据类型，包括：依据医疗票据的表头文本语义与医疗票据类型的映射关系，确定OCR识别结果对应的医疗票据类型；或/和，依据医疗票据中特定文本语义与医疗票据类型的映射关系，确定OCR识别结果对应的医疗票据类型；或/和，利用分类模型对输入OCR识别结果进行计算，以确定OCR识别结果对应的医疗票据类型。3.根据权利要求1所述的医疗票据中名称提取及标准化方法，其特征在于，所述对OCR识别结果基于关键词进行名称内容范围分析，以提取名称内容范围，包括：针对单栏排布的医疗票据对应的OCR识别结果，以关键词所在行为初始行，逐行向上进行判断，若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符，或当前行存在不属于关键词对应内容的文字描述，则认为当前行的下一行为关键词对应的名称内容范围的开始行，并将关键词移至开始行的首位置；以关键词所在行为初始行，逐行向下进行判断，若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符，或当前行存在不属于关键词对应内容文字的描述，则认为当前行的上一行为关键词对应的名称内容范围的结束行；所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围，且该名称内容范围的首位置为关键词；将整理好的名称内容范围对应的OCR块列表顺序插入到关键词所在行；针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词，对双栏中的每一栏中的每个关键词，按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应的名称内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行，并移动关键词到开始行的首位置；针对每个关键词，从其开始行到结束行逐行向下进行判断，若当前行中元素中心坐标小于其他关键词中心坐标，则该元素属于当前关键词，否则属于其他关键词，依次进一步确定每个关键词对应的名称内容范围；将提取的关键词对应的名称内容范围作为一个块插入到关键词所在行。针对表格排布的医疗票据对应的OCR识别结果，关键词所在行即为表头行，也为名称内容范围的开始行，将表头行中的每个元素作为单独一列，从表头行开始，逐行向下进行判断，若当前行存在不属于关键词对应内容的文字描述，则认为当前行的上一行为名称内容
范围的结束行；从开始行到结束行，逐行向下判断，依据当前行中的每个元素与表头中的每个元素的距离，将元素归到距离最近的表头中元素对应的那列。4.根据权利要求1所述的医疗票据中名称提取及标准化方法，其特...

【专利技术属性】
技术研发人员：赵鑫，谭谞，
申请(专利权)人：杭州米数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人