【技术实现步骤摘要】
发票识别方法、计算机设备及存储介质
[0001]本专利技术涉及发票识别领域,特别涉及一种发票识别方法及计算机设备、计算机存储介质。
技术介绍
[0002]随着数字贸易的发展,跨境贸易交易量越来越大,在跨境业务中,发票的解析是必不可少的一步,但是由于发票样式的多样性以及解析字段的不固定性,目前的方法对跨境发票的解析难以获取正确的解析结果,尤其是对于不同类型的发票,解析的通用性较低,无法实现跨境业务的高效发票识别,影响跨境业务的自动化业务效率。
技术实现思路
[0003]本专利技术的目的在于提供一种发票识别方法及计算机设备、计算机存储介质,以至少解决跨境发票的解析准确率低、解析通用性受限、解析效率低的问题。
[0004]为解决上述技术问题,本专利技术提供一种发票识别方法,包括:接收输入的发票文件;基于预配置的字符识别服务解析所述发票文件,获得所述发票文件的信息数据源;获取预设的阅读顺序算法,基于所述阅读顺序算法对所述信息数据源进行重排序,得到具备目标文件阅读顺序的目标数据源;将所述目标数据源利用多模态算法 ...
【技术保护点】
【技术特征摘要】
1.一种发票识别方法,其特征在于,包括:接收输入的发票文件;基于预配置的字符识别服务解析所述发票文件,获得所述发票文件的信息数据源;获取预设的阅读顺序算法,基于所述阅读顺序算法对所述信息数据源进行重排序,得到具备目标文件阅读顺序的目标数据源;将所述目标数据源利用多模态算法进行融合后输入至识别模型执行数据推理,得到所述目标数据源对应的内容信息;根据各个所述目标数据源的内容信息确定所述发票文件的发票内容。2.根据权利要求1所述的发票识别方法,其特征在于,所述获取预设的阅读顺序算法,基于所述阅读顺序算法对所述信息数据源进行重排序,得到具备目标文件阅读顺序的目标数据源,包括:获取所述信息数据源中的文本、图像及所述文本和图像对应的坐标;根据所述文本、图像、坐标匹配所述发票文件的样式;根据所述样式匹配排序规则;基于所述阅读顺序算法与所述排序规则对特定样式下的发票文件的所述信息数据源进行重排序,得到具备目标文件阅读顺序的目标数据源。3.根据权利要求1所述的发票识别方法,其特征在于,所述将所述目标数据源利用多模态算法进行融合后输入至识别模型执行数据推理,得到所述目标数据源对应的内容信息,包括:获取数据推理的每一个推理阶段;根据所述推理阶段匹配对应的多模态算法的融合方式;依次在各个推理阶段将所述目标数据源利用多模态算法以对应的融合方式进行融合后输入至识别模型执行数据推理,得到所述目标数据源对应的内容信息。4.根据权利要求1所述的发票识别方法,其特征在于,所述将所述目标数据源利用多模态算法进行融合后输入至识别模型执行数据推理,得到所述目标数据源对应的内容信息之后,还包括:提取所述目标数据源包含的字段;从所述内容信息中提取各个所述字段的字段内容;将所述字段内容与所述字段关联存储至数据库中,以分别存储每一个字段的字段内容。5.根据权利要求4所述的发票识别方法,其特征在于,所述将所述字段内容与所述字段关联存储至数据库中,包括:获取数据库中该字段的标准字段内...
【专利技术属性】
技术研发人员:李鑫鑫,王天星,何锦源,
申请(专利权)人:深圳前海环融联易信息科技服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。