一种医疗化验单的结构化识别方法、系统及存储介质技术方案

技术编号:36782820 阅读:16 留言:0更新日期:2023-03-08 22:20
本发明专利技术提供一种医疗化验单的结构化识别方法、系统及存储介质,该方法包括如下步骤:获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A

【技术实现步骤摘要】
一种医疗化验单的结构化识别方法、系统及存储介质


[0001]本专利技术涉及智慧医疗领域,尤其涉及一种医疗化验单的结构化识别方法、系统及存储介质。

技术介绍

[0002]当前医院中使用的医疗化验单材料依然以纸质为主,其中信息包含:客户信息,诊断信息,化验信息等。在医疗行业、健康管理行业中,这些信息具有很高的科研价值,且提取难度较高,目前还多依赖人工录入。
[0003]随着OCR(文字识别)与NLP(自然语言处理)等人工智能技术在生产生活中的应用的逐渐发展普及,与传统人工录入相比,利用OCR及NLP技术的应用可以有效提升工作效率,并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。
[0004]本专利技术主要针对医疗化验单报告图片,提取数据,并生成电子结构化数据。

技术实现思路

[0005]为了实现上述目的和优点,本专利技术第一专利技术目的是提供一种医疗化验单结构化识别方法,包括以下步骤:
[0006]获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A
i
和最小值B
i
,标注所述图像中内容区域框线及第一信息组,所述第一信息组至少包括:检验项目的名称、结果、单位;
[0007]其中,i取不同值,对应各检验项目的编号;A
i
和B
i
分别表示临床公开的不同检验项目结果的最大值、最小值;
[0008]根据所述内容区域框线,将所述医疗化验单图像划分得到有效信息区域;
[0009]获取有效信息区域的文本内容,并以固定格式记录所述内容,所述有效信息区域的文本内容至少包括所述第一信息组内的信息,记为候选名称、候选结果和候选单位;
[0010]建立检验项目标准化数据集;其中,所述标准化数据集至少包括第一信息组内的信息,记为标准名称、标准结果和标准单位;
[0011]匹配检验项目的最终结果和最终单位;
[0012]重复匹配检验项目的最终结果和单位,直至得到所有所述医疗化验单的第一信息组。
[0013]优选的是,获取所述第一信息组和临床检验科的所有检验项目,确定唯一的标准化数据集,得到检验项目对齐模型,其中包括所有单个检验项目结果的最大值A
i
和最小值B
i
,及检验项目的所有单位;
[0014]其中,所述标准化数据集中有唯一标准名称及所述单个项目结果的最大值A
i
和最小值B
i
与所述候选名称对应。
[0015]优选的是,将所述检验项目候选单位与检验项目标准单位的相似度按照优先级由
高到底排列,相似度最高的是检验项目的最终单位。
[0016]优选的是,根据所述最终检验项目的单位和所述检验项目名称匹配所述检验项目结果,所述检验项目结果以第一数值表示,并
[0017]判断所述第一数值是否小于所述最大值A
i
和/或大于所述最小值B
i

[0018]若是,则所述第一数值为检验项目的最终数值,
[0019]若否,则给予返回提示;
[0020]进一步优选的是,所述相似度以文本向量的欧氏距离表征;其中,所述欧氏距离为文本向量差的模长,所述文本向量为bert词向量。
[0021]进一步优选的是,当所述第一数值大于所述最大值A
i
和/或小于所述最小值B
i
时,还包括:计算所述数值与所述最大值A
i
和最小值B
i
差的百分比,若不超过所述最大值A
i
和/或最小值B
i
的20%则为疑似检验项目的结果,若超过最大值A
i
和/或最小值B
i
的20%则为不可靠检验项目的结果,并返回提示。
[0022]本专利技术第二专利技术目的是提供一种计算机可读存储介质,其上储存有程序指令,所述程序指令被执行时实现如上所述的方法。
[0023]本专利技术第三专利技术目的是提供一种医疗化验单的结构化识别系统,其特征在于,包括:
[0024]标注模块,用于标注医疗化验单内容区域的框线、检验项目名称、检验项目结果、检验项目单位;
[0025]识别提取模块,用于识别标注框线的区域并提取所述区域内的内容文本;
[0026]处理控制模块,获取数据、建立标注化数据集、匹配检验项目结果和单位,并判断所述检验项目结果和单位是否满足设定要求;
[0027]其他模块,用于获取其他信息,至少包括医疗化验单图像,临床公开的单个检验项目结果的最大值A
i
和最小值B
i

[0028]其中,i取不同值,A
i
和B
i
分别表示临床公开的不同检验项目结果的最大值、最小值;
[0029]其中,所述处理控制模块包括一种计算机可读存储介质,其上存储有程序指令,当运行程序指令时实现一种医疗化验单结构化识别方法。
[0030]优选的是,判断所述结果和单位是否满足设定要求,包括处理控制模块逐一计算OCR提取的检验项目单位与标准数据集中的检验项目单位的相似度并按照优先级由高到底排列;
[0031]其中,所述相似度以文本向量的欧氏距离表征,所述文本向量为bert词向量。
[0032]进一步优选的是,判断所述结果和单位是否满足设定要求,所述项目结果以第一数值表示,判断所述第一数值是否小于检验项目结果的最大值A
i
和/或大于所述检验项目结果的最小值B
i

[0033]若是,则所述第一数值为检验项目的最终数值,
[0034]若否,则计算第一数值与所述检验项目结果的最大值A
i
和/或最小值B
i
差的百分比,若不超过所述最大值A
i
和/或最小值B
i
的20%则为疑似检验项目的结果,若超过最大值A
i
和/或最小值B
i
的20%则为不可靠检验项目的结果,并返回提示。
[0035]与现有技术相比,本专利技术的有益效果为:
[0036]本专利技术提供一种医疗化验单的结构化识别方法,获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A
i
和最小值B
i
,标注所述图像中内容区域框线及第一信息组,所述第一信息组至少包括:检验项目的名称、结果、单位;根据所述内容区域框线,将所述医疗化验单图像划分得到有效信息区域;获取有效信息区域的文本内容,并以固定格式记录所述文本内容;建立检验项目标准化数据集;匹配检验项目的最终结果和最终单位,直至得到所有所述医疗化验单的第一信息组。
[0037]本专利技术提供的一种医疗化验单的结构化识别方法,利用医疗化验单图像中的区域框线对医疗化验单进行区域划分,针对不同区域使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗化验单的结构化识别方法,其特征在于,包括以下步骤:获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A
i
和最小值B
i
,标注所述图像中内容区域框线及第一信息组,所述第一信息组至少包括:检验项目的名称、结果、单位;其中,i对应各检验项目的编号;根据所述内容区域框线,将所述医疗化验单图像划分得到有效信息区域;获取有效信息区域的文本内容,并以固定格式记录所述文本内容,所述有效信息区域的文本内容至少包括所述第一信息组内的信息,记为候选名称、候选结果和候选单位;建立检验项目标准化数据集;其中,所述标准化数据集至少包括第一信息组内的信息,记为标准名称、标准结果和标准单位;匹配检验项目的最终结果和最终单位;重复匹配检验项目的最终结果和单位,直至得到所有所述医疗化验单的第一信息组。2.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,获取所述第一信息组和临床检验科的所有检验项目,确定唯一的标准化数据集,得到检验项目对齐模型,其中包括所有单个检验项目结果的最大值A
i
和最小值B
i
,及检验项目的所有单位;其中,所述标准化数据集中有唯一标准名称及所述单个项目结果的最大值A
i
和最小值B
i
与所述候选名称对应。3.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,将所述检验项目候选单位与检验项目标准单位的相似度按照优先级由高到底排列,相似度最高的是检验项目的最终单位。4.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,根据所述最终检验项目的单位和所述检验项目名称匹配所述检验项目结果,所述检验项目结果以第一数值表示,并判断所述第一数值是否小于所述最大值A
i
和/或大于所述最小值B
i
;若是,则所述第一数值为检验项目的最终数值,若否,则给予返回提示。5.如权利要求3所述一种医疗化验单的结构化识别方法,其特征在于,所述相似度以文本向量的欧氏距离表征;其中,所述欧氏距离为文本向量差的模长,所述文本向量为bert词向量。6.如权利要求4所述一种医疗化验单的结构化识别方法,其特征在于,当所述第一数值大于所述最大值A
i
和/或小于所述最小值B
i
时,还包括,计算所述第一数值与所述最大值A
i

【专利技术属性】
技术研发人员:戴亚康戴斌耿辰李慧李凤美周志勇
申请(专利权)人:苏州国科康成医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1