The embodiment of the invention provides an identification method and device for an industry category, including extracting the predetermined characteristics of the invoices to be identified, and calculating the industry categories corresponding to the invoices to be identified according to the established features and the maximum entropy model of the industry category. The application example is based on the invoice is the carrier of the content of economic activities, and the industry is based on the actual basis of the classification of the content of economic activities. It provides a method to identify the category of the industry according to the contents of the invoice. By extracting the features from the contents of the invoice, the relationship model between the characteristics and the category of the industry is established. According to the contents of the invoice, identify the category of the industry accurately.
【技术实现步骤摘要】
一种行业类别的识别方法及装置
本专利技术涉及数据挖掘领域,尤其涉及一种行业类别的识别方法及装置。
技术介绍
行业(或产业)是指从事相同性质的经济活动的所有单位的集合。当单位从事一种经济活动时,则按照该经济活动确定单位的行业;当单位从事两种或者两种以上的经济活动时,则按照该单位所从事的主要经济活动确定单位的行业。准确的行业分类才可能被用于解释行业本身所处的发展阶段及其在国民经济中的地位,分析影响行业发展的各种因素以及判断对行业的影响力度,预测并引导行业的未来发展趋势,判断行业的投资价值,揭示行业风向,为各组织机构提供投资决策或者投资依据。
技术实现思路
本专利技术的实施例根据发票是经济活动内容的载体,而行业又是根据经济活动的内容进行分类的现实依据,提供了一种根据发票内容识别行业类别的方法,通过从发票内容中提取特征,建立特征与行业类别之间的关系模型,实现了根据发票内容,准确识别行业类别。为达到上述目的,本专利技术的实施例采用如下技术方案:一方面,本专利技术实施例提供了一种行业类别的识别方法,包括提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。可选地,所述提取待识别发票的预定特征之前包括:将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量。可选地,上述的预定特征为发票的商品名称 ...
【技术保护点】
1.一种行业类别的识别方法,其特征在于,包括:提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。
【技术特征摘要】
1.一种行业类别的识别方法,其特征在于,包括:提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。2.根据权利要求1所述的识别方法,其特征在于,所述提取待识别发票的预定特征之前包括:将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量,其中,n≥1。3.根据权利要求1或2所述的识别方法,其特征在于,所述预定特征为发票的商品名称和金额的组合特征。4.根据权利要求3所述的识别方法,其特征在于,所建立的预定特征与行业类别之间的特征指示函数为:其中,xa为所述训练数据库中n张发票的商品名称,xb为所述训练数据库中n张发票的金额,x为xa和xb的组合特征,y为行业类别,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m,m为所述已知行业类别的n张发票的行业类别的种类个数。5.根据权利要求3所述的识别方法,其特征在于,所述采用拉格朗日乘子法计算得到的条件概率的最优解为:其中,Z(x)为归一化因子,且所得到的最优拉格朗日乘子向量V=(λ1,,λ2,……λM)。6.根据权利要求5所述的识别方法,其特征在于,所述根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别为:根据公式将待识别发票的商品名称xa和...
【专利技术属性】
技术研发人员:胡懋地,舒南飞,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。