识别单据的方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:35606037 阅读:12 留言:0更新日期:2022-11-16 15:28
本发明专利技术公开了一种识别单据的方法、装置、存储介质以及电子设备。该方法包括:将第一数量的样本数据输入到第一语言模型中,对第一语言模型进行训练;在第一语言模型的识别准确度大于或等于第一阈值的情况下,将第一语言模型确定为目标语言模型;在得到目标语言模型之后,将待识别的单据中的目标数据输入到目标语言模型中,得到第一维度的第一目标向量;将第一维度的第一目标向量映射到目标向量空间,得到第二维度的第二目标向量,第二维度高于第一维度;将第二目标向量输入到目标识别模型中,得到识别结果,其中,识别结果用于表示单据不符合规定或符合规定。本发明专利技术解决了人工处理单据是否符合规定的方式耗费时间长的技术问题。据是否符合规定的方式耗费时间长的技术问题。据是否符合规定的方式耗费时间长的技术问题。

【技术实现步骤摘要】
识别单据的方法、装置、存储介质以及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种识别单据的方法、装置、存储介质以及电子设备。

技术介绍

[0002]现有技术中,判断单据是否符合规定主要采用人工处理方式,该方式处理耗时,并且缺乏客观性。之后提出了一些机器学习自动识别单据是否符合规定的方式,主要采用单据的费用明细、单据的拥有者的基本信息进行识别是否符合规定,但是还没有从单据的处方明细角度来判别单据是否符合规定,然而处方明细内的信息往往存在不符合规定的内容。

技术实现思路

[0003]本专利技术实施例提供了一种识别单据的方法、装置、存储介质以及电子设备,以至少解决人工处理单据是否符合规定的方式,耗费时间长的技术问题。
[0004]根据本专利技术实施例的一个方面,提供了一种识别单据的方法,包括:将第一数量的样本数据输入到第一语言模型中,对上述第一语言模型进行训练,其中,上述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量,随机删除每一个上述第一样本向量中第二数量的向量后得到与每一个上述第一样本向量对应的第二样本向量,对每一个上述第二样本向量进行预测,得到每一个上述样本数据的第一预测结果,上述第一预测结果用于确定上述第一语言模型的识别准确度;在上述第一语言模型的上述识别准确度大于或等于第一阈值的情况下,将上述第一语言模型确定为目标语言模型;在得到上述目标语言模型之后,将待识别的单据中的目标数据输入到上述目标语言模型中,得到第一维度的第一目标向量;将上述第一维度的第一目标向量映射到目标向量空间,得到第二维度的第二目标向量,上述第二维度高于上述第一维度;将上述第二目标向量输入到目标识别模型中,得到识别结果,其中,上述识别结果用于表示上述单据不符合规定或符合规定。
[0005]根据本专利技术实施例的另一方面,提供了一种识别单据的装置,包括:第一训练模块,用于将第一数量的样本数据输入到第一语言模型中,对上述第一语言模型进行训练,其中,上述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量,随机删除每一个上述第一样本向量中第二数量的向量后得到与每一个上述第一样本向量对应的第二样本向量,对每一个上述第二样本向量进行预测,得到每一个上述样本数据的第一预测结果,上述第一预测结果用于确定上述第一语言模型的识别准确度;确定模块,用于在上述第一语言模型的上述识别准确度大于或等于第一阈值的情况下,将上述第一语言模型确定为目标语言模型;第一输入模块,用于将待识别的单据中的目标数据输入到上述目标语言模型中,得到第一维度的第一目标向量;第一映射模块,用于将上述第一维度的第一目标向量映射到目标向量空间,得到第二维度的第二目标向量,上述第二维度高于上
述第一维度;第二输入模块,用于将上述第二目标向量输入到目标识别模型中,得到识别结果,其中,上述识别结果用于表示上述单据不符合规定或符合规定。
[0006]作为一种可选的示例,上述装置还包括:获取模块,用于在将第一数量的样本数据输入到第一语言模型中之前,获取上述第一数量的样本单据;提取模块,用于从每一个上述样本单据中提取数据;处理模块,用于在将从每一个上述样本单据中提取的数据作为一个上述样本数据。
[0007]作为一种可选的示例,上述提取模块包括:处理单元,用于将每一个上述样本单据作为当前样本单据,对上述当前样本单据执行以下操作:获取上述当前样本单据的目标区域,其中,上述目标区域用于记录处方明细;扫描上述目标区域内所有文字,生成上述处方明细;在上述处方明细中获取所有实体,得到上述当前样本单据中的样本数据。
[0008]作为一种可选的示例,上述处理单元还用于:扫描上述目标区域内的所有内容;从上述所有内容中提取出文本格式的内容,作为第一内容;将上述第一内容中的标点符号删除,得到上述处方明细。
[0009]作为一种可选的示例,上述第一映射模块包括:第一获取单元,用于获取上述目标向量空间的向量编码公式;计算单元,用于根据上述向量编码公式对上述第一目标向量进行计算,得到上述第二目标向量。
[0010]作为一种可选的示例,上述装置还包括:第三输入模块,用于在将上述目标数据输入到上述目标语言模型中,得到第一目标向量之前,将上述第一数量的样本数据输入到上述目标语言模型中,得到上述第一数量的第三样本向量;第二映射模块,用于将上述第一数量的上述第一维度的第三样本数据映射到上述目标向量空间,得到上述第一数量的上述第二维度的第四样本向量;第二训练模块,用于使用上述第四样本向量训练第一识别模型,得到目标识别模型。
[0011]作为一种可选的示例,上述第二训练模块包括:输入单元,用于将上述第一数量的第四样本向量输入到上述第一识别模型中,得到上述第一数量的第二预测结果;第一确定单元,用于比对上述第四样本向量和对应的上述第二预测结果,确定上述第一识别模型的识别准确度;调整单元,用于在上述第一识别模型的识别准确度小于第二阈值的情况下,调整上述第一识别模型的模型参数,直到上述第一识别模型的识别准确度大于或等于上述第二阈值;第二确定单元,用于将识别准确度大于或等于上述第二阈值的上述第一识别模型作为上述目标识别模型。
[0012]根据本专利技术实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述识别单据的方法。
[0013]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的识别单据的方法。
[0014]在本专利技术实施例中,采用了将第一数量的样本数据输入到第一语言模型中,对上述第一语言模型进行训练,其中,上述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量,随机删除每一个上述第一样本向量中第二数量的向量后得到与每一个上述第一样本向量对应的第二样本向量,对每一个上述第二样本向量进行预测,得到每一个上述样本数据的第一预测结果,上述第一预测结果用于确定上述第一语言
模型的识别准确度;在上述第一语言模型的上述识别准确度大于或等于第一阈值的情况下,将上述第一语言模型确定为目标语言模型;在得到上述目标语言模型之后,将待识别的单据中的目标数据输入到上述目标语言模型中,得到第一维度的第一目标向量;将上述第一维度的第一目标向量映射到目标向量空间,得到第二维度的第二目标向量,上述第二维度高于上述第一维度;将上述第二目标向量输入到目标识别模型中,得到识别结果,其中,上述识别结果用于表示上述单据不符合规定或符合规定的方法,由于在上述方法中,通过大量的样本数据训练医学专业的语言模型,得到识别准确度高的目标语言模型,将单据中的包含实体的目标数据转化为第一目标向量,利用神经网络技术将第一目标向量映射到统一的高维度空间,得到高维的第二目标向量,通过利用目标识别模型对第二目标向量进行识别,得到是否符合规定的识别结果,从而实现了提高单据是否符合规定审核效率的目的,进而解决了人工处理单据是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别单据的方法,其特征在于,包括:将第一数量的样本数据输入到第一语言模型中,对所述第一语言模型进行训练,其中,所述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量,随机删除每一个所述第一样本向量中第二数量的向量后得到与每一个所述第一样本向量对应的第二样本向量,对每一个所述第二样本向量进行预测,得到每一个所述样本数据的第一预测结果,所述第一预测结果用于确定所述第一语言模型的识别准确度;在所述第一语言模型的所述识别准确度大于或等于第一阈值的情况下,将所述第一语言模型确定为目标语言模型;在得到所述目标语言模型之后,将待识别的单据中的目标数据输入到所述目标语言模型中,得到第一维度的第一目标向量;将所述第一维度的第一目标向量映射到目标向量空间,得到第二维度的第二目标向量,所述第二维度高于所述第一维度;将所述第二目标向量输入到目标识别模型中,得到识别结果,其中,所述识别结果用于表示所述单据不符合规定或符合规定。2.根据权利要求1所述的方法,其特征在于,在将第一数量的样本数据输入到第一语言模型中之前,所述方法还包括:获取所述第一数量的样本单据;从每一个所述样本单据中提取数据;将从每一个所述样本单据中提取的数据作为一个所述样本数据。3.根据权利要求2所述的方法,其特征在于,所述从每一个所述样本单据中提取数据包括:将每一个所述样本单据作为当前样本单据,对所述当前样本单据执行以下操作:获取所述当前样本单据的目标区域,其中,所述目标区域用于记录处方明细;扫描所述目标区域内所有文字,生成所述处方明细;在所述处方明细中获取所有实体,得到所述当前样本单据中的样本数据。4.根据权利要求3所述的方法,其特征在于,所述扫描所述目标区域内所有文字,生成所述处方明细包括:扫描所述目标区域内的所有内容;从所述所有内容中提取出文本格式的内容,作为第一内容;将所述第一内容中的标点符号删除,得到所述处方明细。5.根据权利要求1所述的方法,其特征在于,所述将所述第一目标向量映射到目标向量空间,得到高维的第二目标向量包括:获取所述目标向量空间的向量编码公式;根据所述向量编码公式对所述第一目标向量进行计算,得到所述第二目标向量。6.根据权利要求1所述的方法,其特征在于,在将所述目标数据输入到所述目标语言模型中,得到第一目标向量之前,所述方法还包...

【专利技术属性】
技术研发人员:王东风
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1