【技术实现步骤摘要】
一种医疗化验单的结构化识别方法、系统及存储介质
[0001]本专利技术涉及智慧医疗领域,尤其涉及一种医疗化验单的结构化识别方法、系统及存储介质。
技术介绍
[0002]当前医院中使用的医疗化验单材料依然以纸质为主,其中信息包含:客户信息,诊断信息,化验信息等。在医疗行业、健康管理行业中,这些信息具有很高的科研价值,且提取难度较高,目前还多依赖人工录入。
[0003]随着OCR(文字识别)与NLP(自然语言处理)等人工智能技术在生产生活中的应用的逐渐发展普及,与传统人工录入相比,利用OCR及NLP技术的应用可以有效提升工作效率,并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。
[0004]本专利技术主要针对医疗化验单报告图片,提取数据,并生成电子结构化数据。
技术实现思路
[0005]为了实现上述目的和优点,本专利技术第一专利技术目的是提供一种医疗化验单结构化识别方法,包括以下步骤:
[0006]获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A
i
和最小值B
i
,标注所述图像中内容区域框线及第一信息组,所述第一信息组至少包括:检验项目的名称、结果、单位;
[0007]其中,i取不同值,对应各检验项目的编号;A
i
和B
i
分别表示临床公开的不同检验项目结果的最大值、最小值;
[0008]根据所述内容区域框线,将所述医 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种医疗化验单的结构化识别方法,其特征在于,包括以下步骤:获取医疗化验单的图像及临床公开的所有单个检验项目结果的最大值A
i
和最小值B
i
,标注所述图像中内容区域框线及第一信息组,所述第一信息组至少包括:检验项目的名称、结果、单位;其中,i对应各检验项目的编号;根据所述内容区域框线,将所述医疗化验单图像划分得到有效信息区域;获取有效信息区域的文本内容,并以固定格式记录所述文本内容,所述有效信息区域的文本内容至少包括所述第一信息组内的信息,记为候选名称、候选结果和候选单位;建立检验项目标准化数据集;其中,所述标准化数据集至少包括第一信息组内的信息,记为标准名称、标准结果和标准单位;匹配检验项目的最终结果和最终单位;重复匹配检验项目的最终结果和单位,直至得到所有所述医疗化验单的第一信息组。2.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,获取所述第一信息组和临床检验科的所有检验项目,确定唯一的标准化数据集,得到检验项目对齐模型,其中包括所有单个检验项目结果的最大值A
i
和最小值B
i
,及检验项目的所有单位;其中,所述标准化数据集中有唯一标准名称及所述单个项目结果的最大值A
i
和最小值B
i
与所述候选名称对应。3.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,将所述检验项目候选单位与检验项目标准单位的相似度按照优先级由高到底排列,相似度最高的是检验项目的最终单位。4.如权利要求1所述一种医疗化验单的结构化识别方法,其特征在于,根据所述最终检验项目的单位和所述检验项目名称匹配所述检验项目结果,所述检验项目结果以第一数值表示,并判断所述第一数值是否小于所述最大值A
i
和/或大于所述最小值B
i
;若是,则所述第一数值为检验项目的最终数值,若否,则给予返回提示。5.如权利要求3所述一种医疗化验单的结构化识别方法,其特征在于,所述相似度以文本向量的欧氏距离表征;其中,所述欧氏距离为文本向量差的模长,所述文本向量为bert词向量。6.如权利要求4所述一种医疗化验单的结构化识别方法,其特征在于,当所述第一数值大于所述最大值A
i
和/或小于所述最小值B
i
时,还包括,计算所述第一数值与所述最大值A
i
技术研发人员:戴亚康,戴斌,耿辰,李慧,李凤美,周志勇,
申请(专利权)人:苏州国科康成医疗科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。