一种商品分类编码匹配方法及系统技术方案

技术编号:22330156 阅读:25 留言:0更新日期:2019-10-19 12:17
本发明专利技术提供了一种商品分类编码匹配方法及系统,涉及文本分类技术领域,包括获取商品名称,并对所述商品名称进行分词;根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度;若匹配成功后,使用匹配度最高的分类编码作为所述商品名称对应的分类编码。本发明专利技术通过大数据分析使得商品跟分类编码的匹配度更精确,且具备学习功能,可以逐渐提高分类编码的匹配度,使用户更容易去匹配分类编码,大大提高了用户选择分类编码的便捷度与正确率,并提升国家税务部门的税收管理效率。

【技术实现步骤摘要】
一种商品分类编码匹配方法及系统
本专利技术涉及文本分类
,具体而言,涉及一种商品分类编码匹配方法及系统。
技术介绍
发票是指经济活动中,由出售方向购买方签发的文本,其内容包括向购买者提供产品或服务的名称、质量、协议价格等。除了预付款以外,发票必须具备的要素是根据议定条件由购买方向出售方付款,必须包含日期和数量。发票是会计核算的原始依据,也是审计机关、税务机关执法检查的重要依据。为了加快税收信息化建设,方便纳税人便捷、规范开具增值税发票,以及有利于税务机关加强对增值税的征收管理,国家税务总局于2018年1月份开始推行商品税收分类编码制度。现行开票方式需要纳税人在开票软件中填写商品时,根据商品描述手工选择商品分类编码,可能会出现选错分类编码的情况且效率很低。目前现有技术可根据商品名称及商品编码分类编码库来模糊匹配分类编码,自动定位一些商品分类编码。但因现有商品的名称五花八门,导致很多商品无法选择准确分类编码且效率也不高。
技术实现思路
有鉴于此,本专利技术旨在提供一种商品分类编码匹配方法及系统,解决现有的商品分类编码匹配不准确且效率较低的问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供一种商品分类编码匹配方法,其包括:获取商品名称,并对所述商品名称进行分词;根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度;若匹配成功后,使用匹配度最高的分类编码作为所述商品名称对应的分类编码。本专利技术通过大数据分析使得商品跟分类编码的匹配度更精确,且具备学习功能,可以逐渐提高分类编码的匹配度,使用户更容易去匹配分类编码,大大提高了用户选择分类编码的便捷度与正确率,并提升国家税务部门的税收管理效率。示例性地,所述数据库经初始样本库进行训练得到。本专利技术构构建一个商品名称和分类编码信息的大数据库,其内储存海量已经匹配过的商品名称和对应编码作为样本库,提高了商品名称匹配的精确度。示例性地,所述数据库中的所述名称和所述分类编码一一对应。本专利技术数据库中每一名称对应唯一的分类编码,保证匹配的可靠性。示例性地,所述根据分词结果在数据库中进行匹配度分析包括:对所述分词结果进行优先级排序,再按照所述优先级对所述分词结果进行匹配度分析。本专利技术设置分词结果的优先级进行匹配度分析,提高了匹配分析的效率。示例性地,所述根据分词结果在数据库中进行匹配度分析包括:按照所述分词结果的字符长度进行优先级排序,较长的字符长度具有较高的优先级进行匹配度分析,其中所述商品名称的全称具有最高优先级。本专利技术根据词长进行排序,较长的词具有较高的优先级进行匹配分析,提高了匹配的效率。示例性地,还包括:若匹配不成功则在国标分类编码库中进行查找,若查找到则使用匹配度最高的分类编码作为所述商品名称对应的分类编码,否则,提示手动选择分类编码,并根据输入的分类编码作为所述商品名称对应的分类编码。本专利技术提供用户手动选择分类编码的功能,在各种编码库中均无法匹配名称时可由用户自己填写分类编码。示例性地,匹配成功后还包括:显示匹配度最高的分类编码,并提供是否接受所述匹配度最高的分类编码的选项,若不接受使用匹配度最高的分类编码作为所述商品名称对应的分类编码被选中,则提示手动选择分类编码作为所述商品名称对应的分类编码。本专利技术在用户对推荐的分类编码不满意时可手动选择分类编码,提高了用户体验。示例性地,手动选择分类编码作为所述商品名称对应的分类编码后,将手动选择的所述分类编码发送到后台,用以进行人工审核。本专利技术基于人工审核可防止用户手动选择分类编码时出现的偏差而带来的对数据库中数据准确度的影响。示例性地,将手动选择的所述分类编码发送到后台之后,还包括接受后台人工审核通过的信息,并将所述商品名称和对应的分类编码更新至所述数据库。本专利技术具有学习功能,可迭代更新商品分类编码的匹配数据,从而提高匹配的准确度。第二方面,本专利技术提供一种商品分类编码匹配系统,其包括:获取模块,用于获取商品名称,并对所述商品名称进行分词;计算模块,用于根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度;分类编码模块,用于在匹配成功时使用匹配度最高的分类编码作为所述商品名称对应的分类编码。本专利技术基于海量大数据进行商品编码分析构建大数据库,根据商品名称的分词结果在大数据库中进行匹配分析,具有更高的分类匹配精确度。且具有自学习功能,随着其数据的更新可逐步提高分类编码的匹配度,提高了对商品名称推荐分类编码的准确度,也提高了用户对分类编码选择的效率。附图说明图1所示为现有商品分类编码匹配方法的原理示意图;图2所示为本专利技术实施例的商品分类编码匹配方法的原理示意图;图3所示为本专利技术另一实施例的商品分类编码匹配方法的流程示意图;图4所示为本专利技术又一实施例的商品分类编码匹配方法的流程示意图;图5所示为本专利技术再一实施例的商品分类编码匹配方法的流程示意图;图6所示为本专利技术实施例的商品分类编码匹配系统600的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。图1所示为现有商品分类编码匹配方法的原理示意图,包括步骤S11~S13。在步骤S11中,获取商品的名称。在步骤S12中,在国标分类编码库中对所述商品名称进行模糊查找。在步骤S13中,根据查找结果将所述商品名称匹配到分类编码。现有方法只在国标分类编码库中查找,但由于商品名称种类繁多,实际匹配的准确度较低。如果手动选择分类编码的话,工作量较大也不能保证分类编码选择的准确性。图2所示为本专利技术实施例的商品分类编码匹配方法的原理示意图,包括步骤S21~S23。在步骤S21中,获取商品名称,并对所述商品名称进行分词。在本专利技术实施例中,可采用Ik-Analyzer分词器对商品名称进行分词。例如输入商品名称为戴尔笔记本电脑,基于分类器的分词算法可分出“戴尔笔记本电脑”、“笔记本电脑”、“戴尔”、“电脑”等结果。在本专利技术另一实施例中,用户可对分词器产生的分词结果进行手动调整,例如删除某些觉得不合理的分词结果,或者修改某些分词结果使得分词更为准确。因为如果分词不准确可能会对后续匹配分析引入较大误差,影响系统的匹配准确度和效率。在本专利技术其他实施例中,也可采用其他分词算法对商品名称进行分词,以保证较高的分词准确度。在步骤S22中,根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度。在本专利技术实施例中,基于大数据构建一个数据库,其由海量的已经匹配过商品名称和分类编码信息构成样本库,并经由相应的匹配度算法训练得到。本实施例的数据库包含以下字段:“商品名称”、“分类编码”、“匹配度(%)”以及“人工审核”。其中,“商品名称”和“分类编码”在数据库中是一一对应的。在本专利技术实施例中,对上述步骤S21得到的分词结果进行优先级排序,具有较高优先级的分词结果先进行匹配度分析,若匹配不到则再使用较低优先级的分词结果进行匹配度分析。具体的,按照上述步骤S21得到的分词结果的字符长度进行优先级排序,较长的字符长度具有较高的优先级进行匹配度分析,其中商品名本文档来自技高网...

【技术保护点】
1.一种商品分类编码匹配方法,其特征在于,包括以下步骤:获取商品名称,并对所述商品名称进行分词;根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度;若匹配成功后,使用匹配度最高的分类编码作为所述商品名称对应的分类编码。

【技术特征摘要】
1.一种商品分类编码匹配方法,其特征在于,包括以下步骤:获取商品名称,并对所述商品名称进行分词;根据分词结果在数据库中进行匹配度分析,其中所述数据库包括名称、分类编码以及匹配度;若匹配成功后,使用匹配度最高的分类编码作为所述商品名称对应的分类编码。2.根据权利要求1所述的商品分类编码匹配方法,其特征在于,所述数据库经初始样本库进行训练得到。3.根据权利要求1所述的商品分类编码匹配方法,其特征在于,所述数据库中的所述名称和所述分类编码一一对应。4.根据权利要求1所述的商品分类编码匹配方法,其特征在于,所述根据分词结果在数据库中进行匹配度分析包括:对所述分词结果进行优先级排序,再按照所述优先级对所述分词结果进行匹配度分析。5.根据权利要求4所述的商品分类编码匹配方法,其特征在于,所述根据分词结果在数据库中进行匹配度分析包括:按照所述分词结果的字符长度进行优先级排序,较长的字符长度具有较高的优先级进行匹配度分析,其中所述商品名称的全称具有最高优先级。6.根据权利要求1所述的商品分类编码匹配方法,其特征在于,还包括:若匹配不成功则在国标分类编码库中进行查找,若查找到则使用匹配度最高的分类编码作为所述...

【专利技术属性】
技术研发人员:钱剑林胡祥金辉王家佳吴妙丽
申请(专利权)人:安徽航天信息有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1