一种基于启发式规则的发票货物归类方法技术

技术编号:13992778 阅读:46 留言:0更新日期:2016-11-14 01:15
本发明专利技术公开了一种基于启发式规则的发票货物归类方法,将发票上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映发票出具企业的经营信息。一方面,与企业注册时的行业代码比对,可以判断所开发票是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度。通过基于海关历史记录的实例匹配将发票货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到发票的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的发票货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。

【技术实现步骤摘要】

本专利技术属于一种发票货物归类方法,特别涉及一种基于启发式规则的发票货物归类方法
技术介绍
税务分析的一个重要数据来源是企业的增值税发票,其货物名称的填写主要包括品牌、名称和规格型号三项,但是目前发票货物名的填写尚未实现规范化,导致发票货物数据的质量参差不齐,甚至存在格式不合标准、蓄意错开的现象,严重掩盖了发票所能反映的企业经营信息,为偷漏税提供了温床,同时也影响了税务分析的准确性。对海量的发票货物名进行归类,已成为税务分析和风险监控亟待解决的难题。目前尚未有从发票货物到国民经济行业分类的归类方法,但发票货物名与电子商务的商品名类似,一般均为10字以下的短文本,因此针对商品名的自动分类方法,对于解决发票货物的归类问题具有参考价值。以下3篇专利文献提供了商品名自动分类的不同的技术解决方案:1.一种数据分类的方法及装置(ZL201010122141.2);2.一种基于领域知识的短文本分类方法及文本分类系统(201110172434.6);3.一种适用于B2B电子商务平台的商品信息自动分类(201310674950.8)。文献1提供一种由商品标题分词得到核心词和属性词的分词序列,合并分词序列相同的商品标题,实现商品分类的方法。文献2通过爬取训练知识库,特征提取,建立分类器模型的方式实现对短文本的分类。文献3公开了一种基于已分类商品实例构建分类知识库来实现商品自动分类的方法。发票货物的归类问题要求分类类别为税务部门真正关心的国民经济行业分类,然后目前缺少可用的已分类发票货物实例。故以上文献所述方法运用在发票货物的分类时存在以下问题:文献1分类方法的分类类别是自组织的,且难以控制类别总数和涵盖层次;文献2和文献3的分类方法需要依赖大量的已分类实例。
技术实现思路
本专利技术的目的在于提供一种基于启发式规则的发票货物归类方法,通过基于海关历史记录的实例匹配将发票货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到发票的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的发票货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。为了达到以上目的,本专利技术是采取如下技术方案予以实现的:一种基于启发式规则的发票货物归类方法,包括下述步骤:(1)发票货物名预处理发票货物名的填写尚未实现规范化,其中的不规范元素:异常字符、分隔符和规格型号,都会对归类结果造成影响。为了消除发票货物名中的不规范元素对归类的影响,进行以下预处理:a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;c.将数字加量词作为规格型号从发票货物名中删除;(2)基于搜索引擎知识库构建发票货物名的自定义词典发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典。所述基于搜索引擎知识库构建发票货物名的自定义词典,其特征在于将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词。(3)基于海关历史记录实例匹配获得发票货物名的海关编码基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码。所述基于海关历史记录实例匹配获得发票货物名的海关编码的具体步骤为:Step1.考虑到某些品类的发票货物名特征显著,首先进行特殊品类的匹配。包括化学药品类、医学药品类、服务类和非进出口商品类;Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类发票货物名完全相同的海关历史记录;Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类发票货物名加权余弦相似度高于阈值的海关历史记录;Step4.若加权余弦相似度均低于阈值,全文模糊匹配失败,再进行分词精确匹配,即首先基于自定义词典对待归类发票货物名进行分词,然后按右向最大匹配原则进行分词精确匹配;Step5.若右向最大匹配过程中从未精确匹配成功,则分词精确匹配失败,再进行离线知识库匹配。即首先利用Lucene工具为程序运行过程中积累的已分类发票货物实例建立索引,然后检索出与待归类发票货物名相似度最高的发票货物名的海关编码,作为待归类发票货物名的海关编码。所述海关历史记录具体包括:a.商品编码我国海关编码采用10位数编码,商品编码的第一、二位数码代表-章,第三、四位数码代表-目,第五、六位数码代表-子目,最后四位数码是根据我国进出口商品的实际情况延伸出的编码。b.商品名称与发票上的商品名类似,85%的海关商品名称均由2-9个汉字组成。所述加权余弦相似度,其计算步骤如下:Step1.使用开源分词工具HanLP基于发票货物名的自定义词典进行分词。得到海关商品名称的分词序列,记为List1;得到待归类发票货物名的分词序列,记为List2;Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类发票货物名的加权余弦相似度。所述右向最大匹配原则,其特征是对于待归类发票货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配。若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败。取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。(4)人工建立海关编码到国民经济行业分类代码的映射关系人工建立从海关编码到国民经济行业分类代码的映射关系。海关编码较国民经济行业分类对商品的划分粒度更细,因此映射关系是多对一的。所述海关编码到国民经济行业分类代码的映射关系,格式如下:海关编码(10位数码)国民经济行业分类代码(4位数码)(5)根据映射关系确定发票货物的国民经济行业分类代码对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码。完成将发票货物归类到国民经济行业分类的任务。本专利技术一种基于启发式规则的发票货物归类方法,将发票上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接本文档来自技高网
...

【技术保护点】
一种基于启发式规则的发票货物归类方法,其特征在于,包括下述步骤:(1)发票货物名预处理a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;c.将数字加量词作为规格型号从发票货物名中删除;(2)基于搜索引擎知识库构建发票货物名的自定义词典发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典;所述基于搜索引擎知识库构建发票货物名的自定义词典,将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词;(3)基于海关历史记录实例匹配获得发票货物名的海关编码基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码;(4)人工建立海关编码到国民经济行业分类代码的映射关系所述海关编码到国民经济行业分类代码的映射关系,格式如下:海关编码(10位数码)国民经济行业分类代码(4位数码)(5)根据映射关系确定发票货物的国民经济行业分类代码对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码,完成将发票货物归类到国民经济行业分类的任务。...

【技术特征摘要】
1.一种基于启发式规则的发票货物归类方法,其特征在于,包括下述步骤:(1)发票货物名预处理a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;c.将数字加量词作为规格型号从发票货物名中删除;(2)基于搜索引擎知识库构建发票货物名的自定义词典发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典;所述基于搜索引擎知识库构建发票货物名的自定义词典,将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词;(3)基于海关历史记录实例匹配获得发票货物名的海关编码基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码;(4)人工建立海关编码到国民经济行业分类代码的映射关系所述海关编码到国民经济行业分类代码的映射关系,格式如下:海关编码(10位数码)国民经济行业分类代码(4位数码)(5)根据映射关系确定发票货物的国民经济行业分类代码对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码,完成将发票货物归类到国民经济行业分类的任务。2.根据权利要求1所述的一种基于启发式规则的发票货物归类方法,其特征在于,所述基于海关历史记录实例匹配获得发票货物名的海关编码的具体步骤为:Step1.考虑到某些品类的发票货物名特征显著,首先进行特殊品类的匹配,包括化学药品类、医学药品类、服务类和非进出口商品类;Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类发票货物名完全相同的海关历史记录;Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类发票货物名加权余...

【专利技术属性】
技术研发人员:郑庆华蔚文达阮建飞董博
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1