一种基于多任务交互的医学诊疗报表端到端识别方法技术

技术编号:38468933 阅读:19 留言:0更新日期:2023-08-11 14:45
本发明专利技术公开了一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述方法包括:构建多任务交互端到端识别网络,所述的多任务,包括医学诊疗报表的结构和内容识别、表格单元格的检测定位;构建单元格的视觉特征与结构语义特征的匹配损失函数;利用不确定度加权的多任务学习损失函数训练所述的多任务交互端到端识别网络;后处理网络预测结果。本发明专利技术方法提供一种端到端可训练的基于多任务交互以及单元格语义与视觉特征对齐的方法来高效识别医学诊疗报表。法来高效识别医学诊疗报表。法来高效识别医学诊疗报表。

【技术实现步骤摘要】
一种基于多任务交互的医学诊疗报表端到端识别方法


[0001]本专利技术属于医学、图像处理、模式识别及人工智能
,尤其涉及一种基于多任务交互的医学诊疗报表端到端识别方法。

技术介绍

[0002]医学诊疗报表的结构及内容识别是文档信息自动化提取的关键技术之一,其中结构识别的目的在于从表格图像中提取表格的欧氏几何(单元格位置)与拓扑几何信息(单元格间的行列号、连接关系等),而内容识别的目的是转录每个单元格的文本内容并与结构对齐,从而得到一个信息完备、语义与输入表格图片一致的电子化表格。直觉上,表格常被误以为是二维的横平竖直的网格,似乎识别其结构是容易的。但与直觉相违背的是,现实生活中的表格其实存在很多特殊的单元格结构,例如:合并单元格、斜表头,等等。识别具有特殊情形的表格结构往往是困难的。另外,存在框线被省略的表格,这类表格称作省线表(如三线表、无线表),而框线是表格结构识别的重要视觉线索,若缺省则会很大层度增加表格结构的识别难度。表格的内容识别,常被误解为简单利用光学字符识别技术(Optical Character Recognition,O本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述方法包括:构建多任务交互端到端识别网络,所述的多任务包括医学诊疗报表的结构和内容识别、表格单元格的检测定位;构建单元格的视觉特征与结构语义特征的匹配损失函数;利用不确定度加权的多任务学习损失函数训练所述的多任务交互端到端识别网络;后处理网络预测结果。2.如权利要求1所述的一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述的多任务交互端到端识别网络包括骨干网络模块,多尺度特征抽取模块,报表结构序列预测模块,报表内容序列预测模块和表格单元格定位模块。3.如权利要求2所述的一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述的报表结构序列为HTML序列。4.如权利要求2所述的一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述的报表内容序列为HTML序列。5.如权利要求4所述的一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述的单元格的视觉特征与结构语义特征的匹配损失函数为:其中,D为多尺度特征在每个单元格位置的视觉特征向量,所拼接成的视觉特征矩阵,R为报表结构序列预测模块与各单元格对应的结构语义特征向量,所拼接成的语义特征矩阵,d为视觉特征向量与语义特征向量的维度,N是单元格的数量,diag(N)是形状为N的对角方阵,CrossEntropy为交叉熵损失函数,Softmax的函数式为:6.如权利要求5所述的一种基于多任务交互的医学诊疗报表端到端识别方法,其特征在于,所述的利用不确定度加权的多任务学习损失函数训练多任务交互端到端识别网络,包括以下步骤:以各子损失函数项的不确定度倒数平方σ

2loc
、σ

2cont
、σ

【专利技术属性】
技术研发人员:黄双萍杨帆黄森林方政韦以锋彭卓龙林定坤
申请(专利权)人:广东省中医院广州中医药大学第二附属医院广州中医药大学第二临床医学院广东省中医药科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1