在图片中提取用药记录方法及装置、存储介质、电子设备制造方法及图纸

技术编号:37190900 阅读:14 留言:0更新日期:2023-04-20 22:52
本申请公开了一种在图片中提取用药记录的方法及装置、存储介质和电子设备。方法包括:在目标图片中提取目标文本段;在目标文本段中搜索药物名称,将目标药物名称作为标的字符串;确定标的字符串的第一个字符为第一标的位置,之后的第一个字符为第二标的位置;从第一标的位置开始,向前搜索用药日期文本;从第二标的位置开始,向后搜索用药描述文本;将用药日期文本、用药描述文本以及用药日期文本与用药描述文本之间的字符作为用药记录,添加至用药记录集合中;在目标文本段中剔除用药记录,得到新的目标文本段,返回在目标文本段中搜索药物名称的步骤。本申请的方法解决了现有的信息提取方法不适用于从图片中提取用药史的问题。题。题。

【技术实现步骤摘要】
在图片中提取用药记录方法及装置、存储介质、电子设备


[0001]本申请涉及文字抽取
,尤其是涉及到一种在图片中提取用药记录方法及装置、存储介质和电子设备。

技术介绍

[0002]患者招募是给进入临床试验阶段的新研发的药物招募临床试验的患者,以测试药物的有效性。临床试验对患者有严格的要求,需要患者提供过往用药过程的材料才能够判断患者是否满足临床试验的条件。在现实的实践中,患者提供的往往是图片式的病历材料,如何从图片病历中抽取重要的患者用药史是迫切需要解决的问题。
[0003]然而,当前并没有专用于从图片病历中提取用药记录的技术。由于用药史存在日期可能连续出现、用药记录包含多种药物的组合等特殊性,普通的从电子病历等电子数据中提取信息的手段,并不完全适用于这种特殊的应用场景。

技术实现思路

[0004]有鉴于此,本申请提供了一种在图片中提取用药记录方法及装置、存储介质和电子设备,解决了现有的信息提取方法不适用于从图片中提取用药史的问题。
[0005]根据本申请的一个方面,提供了一种在图片中提取用药记录方法,包括:
[0006]在目标图片中提取目标文本段;
[0007]在所述目标文本段中搜索药物名称,并将搜索到的目标药物名称作为标的字符串;
[0008]确定所述标的字符串的第一个字符为所述第一标的位置,所述标的字符串之后的第一个字符为第二标的位置;
[0009]从所述第一标的位置开始,向前搜索用药日期文本,其中,所述用药日期文本包含一个或多个日期,每两个相邻所述日期之间的间隔字符数不大于预设间隔阈值;
[0010]从所述第二标的位置开始,向后搜索用药描述文本;
[0011]将所述用药日期文本、所述用药描述文本以及所述用药日期文本与所述用药描述文本之间的字符作为用药记录,添加至用药记录集合中;
[0012]在所述目标文本段中剔除所述用药记录,得到新的目标文本段,并返回至在所述目标文本段中搜索药物名称的步骤,直至在所述目标文本段中搜索不到所述药物名称。
[0013]可选地,所述从所述第一标的位置开始,向前搜索用药日期文本,包括:
[0014]从所述第一标的位置开始向前搜索,并将搜索到的第一个日期第一个字符作为第一起始搜索位置,所述第一个日期的最后一个字符作为结束位置;
[0015]提取所述第一起始搜索位置之前的第一预设数量个字符,组成第一待搜索字符串,并在所述第一待搜索字符串中搜索所述日期;
[0016]若搜索到所述日期,则将所述日期的第一个字符位置作为新的第一起始搜索位置,并返回至所述提取所述第一起始搜索位置之前的第一预设数量个字符的步骤;
[0017]若未搜索到所述日期或所述第一起始搜索位置之前的字符数量小于所述第一预设数量,则停止搜索;
[0018]将所述第一起始搜索位置与所述结束位置之间的字符作为用药日期文本添加至用药日期集合中。
[0019]可选地,所述从所述第二标的位置开始,向后搜索用药描述文本,包括:
[0020]将所述第二标的位置作为第二起始搜索位置,提取所述第二起始搜索位置之后的第二预设数量个字符,组成第二待搜索字符串,并在所述第二待搜索字符串中搜索用药描述,其中,所述用药描述包括药物名称以及用药剂量;
[0021]若搜索到所述用药描述,则确定所述用药描述的最后一个字符位置为新的第二起始搜索位置,并返回至所述提取所述第二起始搜索位置之后的第二预设数量个字符的步骤;
[0022]若未搜索到所述用药描述或搜索到日期,则停止搜索;
[0023]将所述第一标的位置与所述第二起始搜索位置之间的字符作为用药描述文本添加至用药描述集合中。
[0024]可选地,在所述若未搜索到所述用药描述或搜索到日期,则停止搜索之后,所述方法还包括:
[0025]若所述第二起始搜索位置与所述第二标的位置相同,则在所述第一标的位置后搜索截止符,并将所述第一标的位置与所述截止符之间的字符作为所述用药描述文本添加至用药描述集合中。
[0026]可选地,所述提取所述第二起始搜索位置之后的第二预设数量个字符,组成第二待搜索字符串,包括:
[0027]确定所述第二起始搜索位置与所述目标文本段的最后一个字符之间的长度;
[0028]若所述长度小于所述第二预设数量,则调整所述第二预设数量为所述长度。
[0029]可选地,所述在目标图片中提取目标文本段,包括:
[0030]将所述目标图片分割成多个子图片,其中,每个所述子图片内的文字与所述子图片的底边平行;
[0031]旋转所述目标图片,至所述目标图片的底边与所述子图片的底边平行,并分别确定每个所述子图片的中点的横坐标以及纵坐标;
[0032]根据所述横坐标以及纵坐标对所述子图片进行排序,得到子图片矩阵,其中,所述子图片矩阵中每一行子图片的中点的横坐标按照升序排序,每一列子图片的中点的纵坐标按照升序排序;
[0033]分别提取每个所述子图片中的子文本段,并按照每个所述子图片在所述子图片矩阵中的位置,拼接所述子文本段得到所述目标文本段。
[0034]可选地,所述将所述目标图片分割成多个子图片,包括:
[0035]根据所述图片中每行文字的高度以及宽度设置矩形检测框;
[0036]利用所述矩形检测框分割所述目标图标,以使每个所述子图片包含一行文字。
[0037]可选地,在所述直至在所述目标文本段中搜索不到所述药物名称之后,所述方法还包括:
[0038]在所述用药记录集合中提取数值记录以及文字记录;
[0039]确定所述数值记录与所述数值描述之间的第一匹配结果,以及所述文字记录与所述文字描述之间的第二匹配结果;
[0040]根据所述第一匹配结果以及第二匹配结果,确定所述目标图片对应的目标患者与所述目标药物试验之间的目标匹配结果。根据本申请的另一方面,提供了一种在图片中提取用药记录装置,所述装置包括:
[0041]文字识别模块,用于在目标图片中提取目标文本段;
[0042]位置标记模块,用于在所述目标文本段中搜索药物名称,并将搜索到的目标药物名称作为标的字符串;以及,确定所述标的字符串的第一个字符为所述第一标的位置,所述标的字符串之后的第一个字符为第二标的位置;
[0043]第一提取模块,用于从所述第一标的位置开始,向前搜索用药日期文本,其中,所述用药日期文本包含一个或多个日期,每两个相邻所述日期之间的间隔字符数不大于预设间隔阈值;
[0044]第二提取模块,用于从所述第二标的位置开始,向后搜索用药描述文本;
[0045]记录模块,用于将所述用药日期文本、所述用药描述文本以及所述用药日期文本与所述用药描述文本之间的字符作为用药记录,添加至用药记录集合中;
[0046]循环模块,用于在所述目标文本段中剔除所述用药记录,得到新的目标文本段,并返回至在所述目标文本段中搜索药物名称的步骤,直至在所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在图片中提取用药记录的方法,其特征在于,所述方法包括:在目标图片中提取目标文本段;在所述目标文本段中搜索药物名称,并将搜索到的目标药物名称作为标的字符串;确定所述标的字符串的第一个字符为所述第一标的位置,所述标的字符串之后的第一个字符为第二标的位置;从所述第一标的位置开始,向前搜索用药日期文本,其中,所述用药日期文本包含一个或多个日期,每两个相邻所述日期之间的间隔字符数不大于预设间隔阈值;从所述第二标的位置开始,向后搜索用药描述文本;将所述用药日期文本、所述用药描述文本以及所述用药日期文本与所述用药描述文本之间的字符作为用药记录,添加至用药记录集合中;在所述目标文本段中剔除所述用药记录,得到新的目标文本段,并返回至在所述目标文本段中搜索药物名称的步骤,直至在所述目标文本段中搜索不到所述药物名称。2.根据权利要求1所述的方法,其特征在于,所述从所述第一标的位置开始,向前搜索用药日期文本,包括:从所述第一标的位置开始向前搜索,并将搜索到的第一个日期第一个字符作为第一起始搜索位置,所述第一个日期的最后一个字符作为结束位置;提取所述第一起始搜索位置之前的第一预设数量个字符,组成第一待搜索字符串,并在所述第一待搜索字符串中搜索所述日期;若搜索到所述日期,则将所述日期的第一个字符位置作为新的第一起始搜索位置,并返回至所述提取所述第一起始搜索位置之前的第一预设数量个字符的步骤;若未搜索到所述日期或所述第一起始搜索位置之前的字符数量小于所述第一预设数量,则停止搜索;将所述第一起始搜索位置与所述结束位置之间的字符作为用药日期文本添加至用药日期集合中。3.根据权利要求1所述的方法,其特征在于,所述从所述第二标的位置开始,向后搜索用药描述文本,包括:将所述第二标的位置作为第二起始搜索位置,提取所述第二起始搜索位置之后的第二预设数量个字符,组成第二待搜索字符串,并在所述第二待搜索字符串中搜索用药描述,其中,所述用药描述包括药物名称以及用药剂量;若搜索到所述用药描述,则确定所述用药描述的最后一个字符位置为新的第二起始搜索位置,并返回至所述提取所述第二起始搜索位置之后的第二预设数量个字符的步骤;若未搜索到所述用药描述或搜索到日期,则停止搜索;将所述第一标的位置与所述第二起始搜索位置之间的字符作为用药描述文本添加至用药描述集合中。4.根据权利要求3所述的方法,其特征在于,在所述若未搜索到所述用药描述或搜索到日期,则停止搜索之后,所述方法还包括:若所述第二起始搜索位置与所述第二标的位置相同,则在所述第一标的位置后搜索截止符,并将所述第一标的位置与所述截止符之间的字符作为所述用药描述文本添加至用药描述集合中。
5.根据权利要求3所述的方法,其特征在于,所述提取所述第二起...

【专利技术属性】
技术研发人员:刘海伦黄明星李银锋王月宝沈鹏胡尧周晓波
申请(专利权)人:北京水滴科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1