一种基于贝叶斯模型的商品编码分类方法以及系统技术方案

技术编号:17304881 阅读:17 留言:0更新日期:2018-02-18 23:21
本发明专利技术提供了一种基于贝叶斯模型的商品编码分类方法以及系统。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题,本申请对分词后的稀疏性词语采用同义词扩展技术,通过外部搜索引擎技术增加其词语同义度;进而,本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并以训练好的模型为输入的商品名提供商品编码类目的预测。

A classification method and system of commodity coding based on Bayesian model

The invention provides a kind of classification method and system of commodity coding based on Bayesian model. Sparsity and lack of context problems brought by the short text according to the feature of trade name information, the application of sparse words after the synonym expansion technology, through the external search engine technology to increase its synonyms; furthermore, the invention uses a Bayesian model calculation between word sequence encoding and category of commodities names conditions the probability, so as to obtain the Bayesian encoding classification model, and the trained model as the input commodity name to provide goods category prediction encoding.

【技术实现步骤摘要】
一种基于贝叶斯模型的商品编码分类方法以及系统
本专利技术属于文本信息分析处理领域,更具体来说,涉及一种基于贝叶斯模型的商品编码分类方法以及系统。
技术介绍
在税控机、具有发票开具功能的计算机软件等设备和应用当中,一般要根据商品的商品名,为其检索和赋予一个与商品名对应的税务商品编码。通用的税务商品编码结构由大类、子类等构成,具体到最详细一级的类目达4300多种,且商品编码分类规则中,主要规定了商品的品种,而对商品的品牌或其他属性未做详细说明。在开票过程中如果依赖人工进行商品分类,需要根据商品名判断属于该通用税务商品编码中的哪个类目,人工从这4300多个底层类目当中选择其中之一作为商品的税务商品编码,不但耗时耗力,并且准确性不高。当前,商品种类多样化、形式多样化,且新商品每天都在以一定的速度增加,那么在商品编码分类这项工作具体实施过程中,如何快速地根据商品名来检索和赋码,也即是通过数据库查询匹配的手段,为商品名映射一个正确的税务商品编码类目,是在相关软硬件研发当中一个重要的内容。依赖于数据库的模糊查询和关键词查询可以解决一部分商品名的赋码问题,但是因为商品名千差万别,且由于汉字的异构性导致这种方法的准确率不高。此外商品名呈现短文本特征,上下文语义缺失导致其存在语义稀疏性和语义敏感性,无法应用传统的统计模型。因此,如何挖掘和建立商品名信息与商品编码规则信息之间的对应关系是当前亟待解决的问题。
技术实现思路
针对现有技术中的上述需要,本申请运用机器学习和数据挖掘技术,提供了一种基于贝叶斯模型的商品编码分类方法以及系统。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题,本申请对分词后的稀疏性词语采用同义词扩展技术,通过外部搜索引擎技术增加其词语同义度;进而,本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并以训练好的模型为输入的商品名提供商品编码类目的预测。本专利技术提供了一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。优选的是,所述同义词扩展步骤中,计算相似度值t:其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)是用特征词tk,tl在互联网语料库内进行检索得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数;G是全网络所有信息的个数;并且,设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。优选的是,同义词扩展步骤中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。优选的是,贝叶斯模型训练步骤包括:(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:(2)计算在样本集数据当中商品名词序列W出现的概率p(W):其中,M是样本中的总词数,和分别是词wi和ti出现的次数;(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):其中,Mc是样本集的类目c中的总词数,和是类目c中词wi和ti出现的次数;(4)根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W):经过以上步骤得到的条件概率p(ci|W)存入字典库。进一步优选的是,步骤(4)中根据贝叶斯公式计算时,还结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):其中,其中D是行业描述语义信息;绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。本专利技术进而提供了一种基于贝叶斯模型的商品编码分类系统,其特征在于,包括:样本集模块,用于从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;贝叶斯模型训练模块,用于基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;分类预测模块,用于对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。优选的是,样本集模块如下执行同义词扩展:计算相似度值t:其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)是用特征词tk,tl在互联网语料库内进行检索网页得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数;并且,设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。优选的是,样本集模块执行同义词扩展过程中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。优选的是,贝叶斯模型训练模块如下执行贝叶斯模型训练:(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:(2)计算在样本集数据当中商品名词序列W出现的概率p(W):其中,M是样本中的总词数,和分别是词wi和ti出现的次数;(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):其中,Mc是样本集的类目c的总词数,和是类目c中词wi和ti出现的次数;(4)根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W):经过以上步骤得到的条件概率p(ci|W)存入字典库。进一步优选的是,贝叶斯模型训练模块在根据贝叶斯公式计算条件概率时,还结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):其中,D是行业描述语义信息,绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。本专利技术的有益效果在于:与现有的短文本分类模型相比,对短文本的语义进行扩展,利用预训练的词表示集合,引入大量外部信息,利用外部搜索引擎进行短文本的语义扩展,有效的解决了短文本上下文语义信息稀疏性的问题。本专利技术使用句法分析树对短语进行分词和词性标注,并通过序列关系确定了中心词,并采用先验知识确定其中心词在分词模型中所占的比重。在此基础上本专利改进了贝叶斯模型,引入行业信息,在此先验知识的基础上,使用本文档来自技高网...
一种基于贝叶斯模型的商品编码分类方法以及系统

【技术保护点】
一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。

【技术特征摘要】
1.一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。2.根据权利要求1所述的商品编码分类方法,其特征在于,所述同义词扩展步骤中,计算相似度值t:其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)是用特征词tk,tl在互联网语料库内进行检索得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数;G是全网络所有信息的个数;并且,设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。3.根据权利要求2所述的商品编码分类方法,其特征在于,同义词扩展步骤中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。4.根据权利要求3所述的商品编码分类方法,其特征在于,贝叶斯模型训练步骤包括:(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:(2)计算在样本集数据当中商品名词序列W出现的概率p(W):其中,M是样本中的总词数,和分别是词wi和ti出现的次数;(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):其中,Mc是样本集的类目c中的总词数,和是类目c中词wi和ti出现的次数;(4)根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W):经过以上步骤得到的条件概率p(ci|W)存入字典库。5.根据权利要求4所述的商品编码分类方法,其特征在于,步骤(4)中根据贝叶斯公式计算时,还结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):其中,其中D是行业描述语义信息;绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。...

【专利技术属性】
技术研发人员:庞胜民王涛孙科武林文辉高哲张浩
申请(专利权)人:宁波爱信诺航天信息有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1