一种少量样本的票据分类方法及系统技术方案

技术编号:23344792 阅读:34 留言:0更新日期:2020-02-15 04:21
本发明专利技术属于智能做账技术领域,提出了一种少量样本的票据分类方法及系统,包括获得票据图片,构建票据图片集A;构建配对票据样本集S;构建票据图片相似度匹配模型C;加载训练好的票据图片相似度匹配模型C,判断新加入票据图片的票据类别。通过上述技术方案,解决了现有技术中少量样本的票据分类难度大的问题。

A method and system of bill classification with a small number of samples

【技术实现步骤摘要】
一种少量样本的票据分类方法及系统
本专利技术属于智能做账
,涉及一种少量样本的票据分类方法及系统。
技术介绍
票据系统在实际运行过程中,会接受来自各种不同公司、各个不同行业领域的票据图片,这些票据图片的票样格式各不相同,种类繁多。在系统处理之前往往需要按照票据样式进行归类,也就是说相同类型或格式的票样归为一类,不同类型的票据划归到不同的类别,如果按照传统的计算机视觉或者机器学习技术需要大量的票据图片作为训练样本来构建机器学习模型,而且这里所说的大量往往是每一类票样的图片数量都要求有几百张到几千张,在现实场景中一般是很难满足这样的要求,因为实际运行过程中,添加和支持一种新的票据样式的话,往往最多可能只有10~20几张,远远不能满足要求,所以如何在只有少量样本的情形下、快速准确实现票据图片的分类功能是一件非常重要的事情,也是该领域目前技术上的一个难点。
技术实现思路
本专利技术提出一种少量样本的票据分类方法及系统,解决了现有技术中少量样本的票据分类难度大的问题。本专利技术的技术方案是这样实现的:一种少量样本的票据分本文档来自技高网...

【技术保护点】
1.一种少量样本的票据分类方法,其特征在于,包括/nS0:构建票据样本集A,票据样本集A中的票据种类为n,n≥2,每一种票据类型的个数为m,m≥1,/nA={i_j.jpg|i=1,2...n;j=1,2...m};/nS1:将票据样本集A中的票据图片两两组合进行比较,形成配对票据样本集S:/nS={(k1.jpg,k2.jpg,y

【技术特征摘要】
1.一种少量样本的票据分类方法,其特征在于,包括
S0:构建票据样本集A,票据样本集A中的票据种类为n,n≥2,每一种票据类型的个数为m,m≥1,
A={i_j.jpg|i=1,2...n;j=1,2...m};
S1:将票据样本集A中的票据图片两两组合进行比较,形成配对票据样本集S:
S={(k1.jpg,k2.jpg,yk)|k1.jpg∈A,k2.jpg∈A}
其中,yk为相似标签,当k1.jpg和k2.jpg为同一票据类型时,yk=0,否则yk=1;
S2:根据配对票据样本集S,构建票据图片相似度匹配模型C,包括
S21:构建双路深度学习网络,包括第一路深度学习网络和第二路深度学习网路,第一路深度学习网络得到k1.jpg的二值哈希编码bk1、第二路深度学习网络得到k2.jpg的二值哈希编码bk2,
S22:根据bk1、bk2和yk的值计算双路深度学习网络的损失函数,具体为:



其中,α和T均属于超参数,
S23:如果L大于设定值,则修改α和T的值,重新执行步骤S21~S23,
S24:如果L小于设定值,则记录步骤S23中的α和T,并记录票据样本集A中所有票据图片的名称、票据样本集A中所有票据图片的票据类型和票据样本集A中所有票据图片的二值哈希编码,得到训练好的票据图片相似度匹配模型C;
S3:加载训练好的票据图片相似度匹配模型C,判断新加入票据图片的票据类别,具体为:
S31:按照步骤S21的方法,计算新加入票据图片的二值哈希编码,
S32:分别计算新加入票据图片的二值哈希编码与票据图片相似度...

【专利技术属性】
技术研发人员:张汉宁苏斌弋渤海徐博田福康
申请(专利权)人:西安网算数据科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1