【技术实现步骤摘要】
一种单据分类方法和装置
本专利技术涉及计算机
,尤其涉及一种单据分类方法和装置。
技术介绍
对于纸质单据,业务操作人员通过登记扫描将一笔业务所有的纸质单据的扫描成影像文件录入到系统中,同时对影像文件进行OCR(OpticalCharacterRecognition,光学字符识别)识别,保存单据内容识别结果及单据种类识别结果,提供给后续审单时使用。传统的审单全部由具备审单经验的专家人工线下完成,系统只是录入审核结果。现有的智能审单方式可以代替人工进行审单,但是对于单据内容识别结果特别是单据种类识别结果依赖很大,单据种类识别错误或者识别不出的业务将无法采用智能审单方式,只能继续采用人工审核方式进行审单。由于审单过程复杂,对人员素质要求高,审单人员的培养周期长,一般要三年以上,另外单据种类繁多,格式多样,导致占用人工成本很大。因此,提高单据分类的正确率,将尽可能多的业务纳入智能审单将会大幅度降低业务处理成本,提高生产率。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:通过单纯的OCR ...
【技术保护点】
1.一种单据分类方法,其特征在于,包括:/n对待识别的单据进行光学字符识别,得到单据内容识别结果;/n采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。/n
【技术特征摘要】
1.一种单据分类方法,其特征在于,包括:
对待识别的单据进行光学字符识别,得到单据内容识别结果;
采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
2.根据权利要求1所述的方法,其特征在于,采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型。
3.根据权利要求2所述的方法,其特征在于,采用规则分类模型计算所述单据内容识别结果的最高分值,包括:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。
4.根据权利要求3所述的方法,其特征在于,分类词典包括正向词典和反向词典;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值,包括:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
5.根据权利要求2所述的方法,其特征在于,采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
6.根据权利要求5所述的方法,其特征在于,对所述各个样本单据进行预处理,得到各个训练文本,包括:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
7.一种单据分类装置,其特征在于,包括:
识别模...
【专利技术属性】
技术研发人员:王国悦,任贺,雷鸣,李力,
申请(专利权)人:中国建设银行股份有限公司,建信金融科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。