识别单据的方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：35606037 阅读：12 留言：0更新日期：2022-11-16 15:28

本发明专利技术公开了一种识别单据的方法、装置、存储介质以及电子设备。该方法包括：将第一数量的样本数据输入到第一语言模型中，对第一语言模型进行训练；在第一语言模型的识别准确度大于或等于第一阈值的情况下，将第一语言模型确定为目标语言模型；在得到目标语言模型之后，将待识别的单据中的目标数据输入到目标语言模型中，得到第一维度的第一目标向量；将第一维度的第一目标向量映射到目标向量空间，得到第二维度的第二目标向量，第二维度高于第一维度；将第二目标向量输入到目标识别模型中，得到识别结果，其中，识别结果用于表示单据不符合规定或符合规定。本发明专利技术解决了人工处理单据是否符合规定的方式耗费时间长的技术问题。据是否符合规定的方式耗费时间长的技术问题。据是否符合规定的方式耗费时间长的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
识别单据的方法、装置、存储介质以及电子设备

[0001]本专利技术涉及计算机领域，具体而言，涉及一种识别单据的方法、装置、存储介质以及电子设备。

技术介绍

[0002]现有技术中，判断单据是否符合规定主要采用人工处理方式，该方式处理耗时，并且缺乏客观性。之后提出了一些机器学习自动识别单据是否符合规定的方式，主要采用单据的费用明细、单据的拥有者的基本信息进行识别是否符合规定，但是还没有从单据的处方明细角度来判别单据是否符合规定，然而处方明细内的信息往往存在不符合规定的内容。

技术实现思路

[0003]本专利技术实施例提供了一种识别单据的方法、装置、存储介质以及电子设备，以至少解决人工处理单据是否符合规定的方式，耗费时间长的技术问题。
[0004]根据本专利技术实施例的一个方面，提供了一种识别单据的方法，包括：将第一数量的样本数据输入到第一语言模型中，对上述第一语言模型进行训练，其中，上述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量，随机删除每一个上述第一样本向量中第二数量的向量后得到与每一个上述第一样本向量对应的第二样本向量，对每一个上述第二样本向量进行预测，得到每一个上述样本数据的第一预测结果，上述第一预测结果用于确定上述第一语言模型的识别准确度；在上述第一语言模型的上述识别准确度大于或等于第一阈值的情况下，将上述第一语言模型确定为目标语言模型；在得到上述目标语言模型之后，将待识别的单据中的目标数据输入到上述目标语言模型中，得到第一维度的第一目标向量；将上述第一维度...

【技术保护点】

【技术特征摘要】
1.一种识别单据的方法，其特征在于，包括：将第一数量的样本数据输入到第一语言模型中，对所述第一语言模型进行训练，其中，所述第一语言模型用于对每一个样本数据进行识别得到每一个样本数据的第一样本向量，随机删除每一个所述第一样本向量中第二数量的向量后得到与每一个所述第一样本向量对应的第二样本向量，对每一个所述第二样本向量进行预测，得到每一个所述样本数据的第一预测结果，所述第一预测结果用于确定所述第一语言模型的识别准确度；在所述第一语言模型的所述识别准确度大于或等于第一阈值的情况下，将所述第一语言模型确定为目标语言模型；在得到所述目标语言模型之后，将待识别的单据中的目标数据输入到所述目标语言模型中，得到第一维度的第一目标向量；将所述第一维度的第一目标向量映射到目标向量空间，得到第二维度的第二目标向量，所述第二维度高于所述第一维度；将所述第二目标向量输入到目标识别模型中，得到识别结果，其中，所述识别结果用于表示所述单据不符合规定或符合规定。2.根据权利要求1所述的方法，其特征在于，在将第一数量的样本数据输入到第一语言模型中之前，所述方法还包括：获取所述第一数量的样本单据；从每一个所述样本单据中提取数据；将从每一个所述样本单据中提取的数据作为一个所述样本数据。3.根据权利要求2所述的方法，其特征在于，所述从每一个所述样本单据中提取数据包括：将每一个所述样本单据作为当前样本单据，对所述当前样本单据执行以下操作：获取所述当前样本单据的目标区域，其中，所述目标区域用于记录处方明细；扫描所述目标区域内所有文字，生成所述处方明细；在所述处方明细中获取所有实体，得到所述当前样本单据中的样本数据。4.根据权利要求3所述的方法，其特征在于，所述扫描所述目标区域内所有文字，生成所述处方明细包括：扫描所述目标区域内的所有内容；从所述所有内容中提取出文本格式的内容，作为第一内容；将所述第一内容中的标点符号删除，得到所述处方明细。5.根据权利要求1所述的方法，其特征在于，所述将所述第一目标向量映射到目标向量空间，得到高维的第二目标向量包括：获取所述目标向量空间的向量编码公式；根据所述向量编码公式对所述第一目标向量进行计算，得到所述第二目标向量。6.根据权利要求1所述的方法，其特征在于，在将所述目标数据输入到所述目标语言模型中，得到第一目标向量之前，所述方法还包...

【专利技术属性】
技术研发人员：王东风，
申请(专利权)人：北京金山云网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人