OCR识别发票药品名的校验方法、装置及计算机设备制造方法及图纸

技术编号:25346042 阅读:71 留言:0更新日期:2020-08-21 17:05
本发明专利技术公开了OCR识别发票药品名的校验方法、装置、计算机设备及存储介质,涉及人工智能的图像识别技术领域,先利用滑动窗口对发票货物名称进行分词,然后采用文本相似度的计算方法,对发票货物名称的分词与本地平台药品库的药品名进行智能比对,筛选出相似度高的药品名作为发票货物校验名称进行后续的发票关联。该方法实现了对药品两票制的线上验证过程中第一类发票和第二类发票通过药品通用名校验后自动进行关联,无需人工核验,提高了关联效率和关联准确率。

【技术实现步骤摘要】
OCR识别发票药品名的校验方法、装置及计算机设备
本专利技术涉及人工智能的图像识别
,尤其涉及一种OCR识别发票药品名的校验方法、装置、计算机设备及存储介质。
技术介绍
目前,在公立医疗机构药品采购中推行“两票制”,具体是指药品生产企业到流通企业开一次发票(记为第一类发票),流通企业到公立医疗机构开一次发票(记为第二类发票),要求两张发票的药品流通企业名称,药品通用名,药品批号等相关内容互相印证。在“两票制”线上验证过程中,一般采用OCR识别发票的货物名称(包含药品通用名,批次号,以及其他的信息),但在关联针对同一批次药品的第一类发票和第一类发票的时候存在以下难点:1、企业开票货物名称标准不统一:不同的生产企业和配送企业开票所使用的货物名称无统一标准,导致第一类发票和第二类发票关联难以直接通过药品通用名自动进行关联,需人工进行发票信息查看依次关联。由于药品通用名有几十万个,所以人工核验不仅工作量大,效率低,而且容易出错;2、OCR识别的货物名称可能存在缺字,漏字或者错别字,会影响到药品通用名的识别准确性,进而影响到关联发票本文档来自技高网...

【技术保护点】
1.一种OCR识别发票药品名的校验方法,其特征在于,包括:/n接收业务服务器上传的药品发票OCR识别数据,其中,所述药品发票OCR识别数据包括发票货物名称,所述发票货物名称包括药品通用名、药品批次号及药品补充信息;/n将所述药品发票OCR识别数据中的发票货物名称根据对应的字符总个数进行分词,得到与所述发票货物名称对应的分词列表;/n将所述分词列表中每一分词中的汉字字符转化为音形码,以得到与所述分词列表对应的音形码列表;/n获取本地平台药品库的药品名并进行去重和索引重建,得到去重后药品名集合;/n判断所述分词列表中是否存在有与所述去重后药品名集合中药品名相同的分词;/n若所述分词列表中存在有与所...

【技术特征摘要】
1.一种OCR识别发票药品名的校验方法,其特征在于,包括:
接收业务服务器上传的药品发票OCR识别数据,其中,所述药品发票OCR识别数据包括发票货物名称,所述发票货物名称包括药品通用名、药品批次号及药品补充信息;
将所述药品发票OCR识别数据中的发票货物名称根据对应的字符总个数进行分词,得到与所述发票货物名称对应的分词列表;
将所述分词列表中每一分词中的汉字字符转化为音形码,以得到与所述分词列表对应的音形码列表;
获取本地平台药品库的药品名并进行去重和索引重建,得到去重后药品名集合;
判断所述分词列表中是否存在有与所述去重后药品名集合中药品名相同的分词;
若所述分词列表中存在有与所述去重后药品名集合中药品名相同的分词,以对应的分词组成目标分词集合,获取所述目标分词集合中字符个数为最大值的精筛目标分词;
将所述去重后药品名集合中每一药品名中的汉字字符转化为音形码,以得到与所述去重后药品名集合对应的药品名音形码列表;
获取所述药品名音形码列表中各字符串与所述音形码列表中各字符串之间音形码相似度为最大值的目标字符串作为粗筛药品名,根据所述粗筛药品名在所述去重后药品名集合中获取与发票货物名称有最多相同字符的药品名查询精简结果,以由粗筛药品名和药品名查询精简结果组成粗筛目标分词;以及
获取所述精筛目标分词和所述粗筛目标分词中字符个数较大者,以作为所述发票货物名称对应的发票货物校验名称。


2.根据权利要求1所述的OCR识别发票药品名的校验方法,其特征在于,还包括:
调用预先存储的包括了正则表达式的药品批次号提取指令,以获取所述药品发票OCR识别数据中的药品批次号;
若本地已存储的数据中有本地药品发票OCR识别数据、且与所述药品发票OCR识别数据有相同的发票货物校验名称和药品批次号,将所述药品发票OCR识别数据与本地药品发票OCR识别数据进行关联。


3.根据权利要求1所述的OCR识别发票药品名的校验方法,其特征在于,所述将所述药品发票OCR识别数据中的发票货物名称根据对应的字符总个数进行分词,得到与所述发票货物名称对应的分词列表,包括:
统计获取所述发票货物名称的字符总个数以得到滑动窗口最大值,将滑动窗口值分别从1依升序取值至所述滑动窗口最大值,以分别将所述发票货物名称根据对应的滑动窗口值进行分词,得到与所述发票货物名称对应的分词列表。


4.根据权利要求3所述的OCR识别发票药品名的校验方法,其特征在于,所述将滑动窗口值分别从1依升序取值至所述滑动窗口最大值,以分别将所述发票货物名称根据对应的滑动窗口值进行分词,得到与所述发票货物名称对应的分词列表,包括:
获取滑动窗口值;其中,所述滑动窗口值的初始值为1;
获取预设的窗口移动步长,根据所述滑动窗口值及所述窗口移动步长,将所述发票货物名称进行分词得到的分词结果存储至分词列表;其中,所述分词列表的初始值为空值;
将所述滑动窗口值加一以更新滑动窗口值,判断滑动窗口值是否超出所述滑动窗口最大值;若滑动窗口值未超出所述滑动窗口最大值,执行获取预设的窗口移动步长,根据所述滑动窗口值及所述窗口移动步长,将所述发票货物名称进行分词得到的分词结果存储至分词列表的步骤;若滑动窗口值超出所述滑动窗口最大值,执行获取所述分词列表的步骤;
获取所述分词列表。


5.根据权利要求1所述的OCR识别发票药品名的校验方法,其特征在于,所述获取所述药品名音形码列表中各字符串与所述音形码列表中各字符串之间音形码相似度为最大值的目标字符串作为粗筛药品名,包括:
获取所述药品名音形码列表中各字符串与所述音形码列表中各字符串之间音形码相似度,以组成音形码相似度集合;其中,所述音形码相似度集合中每一音形码相似度均对应药品名音形码列表中的一个字符串及音形码列表中的一个字符串;
调用预先存储的音形码相似度阈值,获取所述音形码相似度集合中音形码相似度超出所述音形码相似度阈值的音形码相似度,以组成目标音形码相似度集合;
判断所述目标音形码相似度集合中目标音形码相似度的个...

【专利技术属性】
技术研发人员:郑秋芳冯豆豆
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1