【技术实现步骤摘要】
发票类型识别方法、装置、存储介质和计算机设备
本专利技术涉及计算机领域,尤其涉及一种发票类型识别方法、装置、存储介质和计算机设备。
技术介绍
目前市场上对于票据的分类通常是针对大类别进行分类,没有细分票据子类。对于发票来说,发票有各种各样的类型,同种发票类型的发票可以是不同公司的,同一公司的发票也可以是不同类型。发票的类型较多且发票类型之间的差别较小,使得无法对发票类型进行精确识别。
技术实现思路
有鉴于此,本专利技术实施例提供了一种发票类型识别方法、装置、存储介质和计算机设备,用以解决目前发票类型识别不够精确的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种发票类型识别方法,所述方法包括:获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;根据所述字段分布位置获取所述待分 ...
【技术保护点】
1.一种发票类型识别方法,其特征在于,所述方法包括:获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;根据所述字段分布位置获取所述待分类发票的关键内容;根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。
【技术特征摘要】
2018.10.29 CN 20181126978571.一种发票类型识别方法,其特征在于,所述方法包括:获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;根据所述字段分布位置获取所述待分类发票的关键内容;根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。2.根据权利要求1所述的方法,其特征在于,在所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,所述方法还包括:获取训练发票样本;采用所述光学字符识别技术提取所述训练发票样本的发票模式;将所述训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,所述聚类簇包括簇心;将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为所述目标聚类簇的标准发票模式。3.根据权利要求1所述的方法,其特征在于,所述发票模式采用像素矩阵的形式表示,所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度,包括:获取所有所述标准发票模式,其中,所述标准发票模式采用像素矩阵的形式表示;计算表示所述待分类发票的发票模式的像素矩阵和所有表示所述标准发票模式的像素矩阵之间的余弦相似度,得到与每个所述标准发票模式相对应的相似度。4.根据权利要求1至3任一项所述的方法,其特征在于,在根据所述目标发票模式获取对应的分布状况之前,还包括:将所有所述标准发票模式导入预设的坐标系中,获取每个所述标准发票模式在所述坐标系中的坐标;根据所述坐标确定每个所述标准发票模式对应的所述分布状况;建立每个所述标准发票模式与对应的所述分布状况之间的映射关系,并将所述映射关系存储在数据库中,所述根据所述目标发票模式获取对应的分布状况,包括:查询所述数据库中存储的所述映射关系,根据所述映射关系获取所述目标发票模式对应的分布状况。5.根据权利要求1所述的方法,其特征在于,所述根据所述关键内容和所述字段分布内容确定所述待...
【专利技术属性】
技术研发人员:刘劲柏,徐佳良,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。