一种行业类别的识别方法及装置制造方法及图纸

技术编号:18426958 阅读:14 留言:0更新日期:2018-07-12 02:08
本发明专利技术实施例提供了一种行业类别的识别方法及装置,包括提取待识别发票的预定特征;根据建立的预定特征与行业类别的最大熵模型,计算出待识别发票对应的行业类别。本申请实施例根据发票是经济活动内容的载体,而行业又是根据经济活动的内容进行分类的现实依据,提供了一种根据发票内容识别行业类别的方法,通过从发票内容中提取特征,建立特征与行业类别之间的关系模型,实现了根据发票内容,准确识别行业类别。

An identification method and device for industry category

The embodiment of the invention provides an identification method and device for an industry category, including extracting the predetermined characteristics of the invoices to be identified, and calculating the industry categories corresponding to the invoices to be identified according to the established features and the maximum entropy model of the industry category. The application example is based on the invoice is the carrier of the content of economic activities, and the industry is based on the actual basis of the classification of the content of economic activities. It provides a method to identify the category of the industry according to the contents of the invoice. By extracting the features from the contents of the invoice, the relationship model between the characteristics and the category of the industry is established. According to the contents of the invoice, identify the category of the industry accurately.

【技术实现步骤摘要】
一种行业类别的识别方法及装置
本专利技术涉及数据挖掘领域,尤其涉及一种行业类别的识别方法及装置。
技术介绍
行业(或产业)是指从事相同性质的经济活动的所有单位的集合。当单位从事一种经济活动时,则按照该经济活动确定单位的行业;当单位从事两种或者两种以上的经济活动时,则按照该单位所从事的主要经济活动确定单位的行业。准确的行业分类才可能被用于解释行业本身所处的发展阶段及其在国民经济中的地位,分析影响行业发展的各种因素以及判断对行业的影响力度,预测并引导行业的未来发展趋势,判断行业的投资价值,揭示行业风向,为各组织机构提供投资决策或者投资依据。
技术实现思路
本专利技术的实施例根据发票是经济活动内容的载体,而行业又是根据经济活动的内容进行分类的现实依据,提供了一种根据发票内容识别行业类别的方法,通过从发票内容中提取特征,建立特征与行业类别之间的关系模型,实现了根据发票内容,准确识别行业类别。为达到上述目的,本专利技术的实施例采用如下技术方案:一方面,本专利技术实施例提供了一种行业类别的识别方法,包括提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。可选地,所述提取待识别发票的预定特征之前包括:将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量。可选地,上述的预定特征为发票的商品名称和金额的组合特征。另一方面,本专利技术实施例还提供了一种行业类别的识别装置,包括提取模块,用于提取待识别发票的预定特征;识别模块,用于根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。综上,本专利技术实施例提供了一种行业类别的识别方法及装置,将已知行业类别的发票作为训练样本,通过改进的最大熵模型,得到发票的特征与行业类别的关系模型,进而根据得到的关系模型来识别未知行业类别的发票,实现了快速,准确地根据发票内容识别行业类别。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种行业类别的识别方法的流程图;图2为本专利技术实施例提供的一种行业类别的识别装置的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例所提到的发票是指在购销商品、提供或者接受服务以及从事其他经营活动中,开具、收取的收付款凭证。其基本内容包括:发票的名称、发票代码和号码、联次及用途、客户名称、开户银行及账号、商品名称或经营项目、计量单位、数量、单价、大小写金额、开票人、开票日期、开票单位(个人)名称(章)等。通常把经济活动划分为门类、大类、中类和小类四级。例如,对于碳酸饮料制造行业,其归属的行业门类、大类、中类和小类分别为:门类C-制造业(本门类包括13-43大类,是经物理变化或化学变化后成为新的产品,不论是动力机械制造,还是手工制作;也不论产品是批发销售,还是零售,均视为制造)、大类15-酒、饮料和精制茶制造业、中类152-饮料制造、小类1521-碳酸饮料制造。需要说明的是,本专利技术实施例所涉及的识别行业分类,可以是识别到门类,也可以是识别到大类,也可以是识别到中类,也可以是识别到小类,具体识别到哪一层析,由具体的适用情况而定,比如,如果要分析碳酸行业的发展阶段及其在国民经济中的地位,就要识别到碳酸饮料这个小类,如果只需要分析饮料行业的发展阶段及其在国民经济中的地位,那么,就只需识别到饮料这个大类。现有技术中的最大熵模型一般是针对单一特征的统计评估,而本专利技术实施例中,考虑到当单位从事两种以上的经济活动时,则按照主要经济活动确定单位的行业,而金额对发票中物品的权值起到至关重要的作用,比如一家单位卖出了9000000元的可乐,1元的很多件其他商品,我们会认为这家单位的主要经济活动是销售可乐的。因此,我们对现有技术中的最大熵模型进行了改进,将商品名称(或者经营项目)以及金额作为组合特征,对未知行业类别的发票进行所属行业类别的准确预估。要想对待识别发票进行行业类别的预估,就要建立一个准确的模型,来对未知行业类别的发票进行行业类别的识别。首先建立一个训练数据库,在实施例中,假设有n张已知行业类别的发票,将这n张发票放入训练数据库中,对训练数据库中的每张发票的内容进行处理,即提取每张发票的特征,这里的特征指的是商品名称和金额的组合特征,设x表示一个商品名称和金额的组合特征x={xa,xb},xa表示商品名称,xa的取值为共n种商品的一种,xb表示金额,y表示行业分类,假设这n中发票总共有m种行业类别,那么,y的可能取值为y1,y2,...,ym共m种行业类别的一种,x和y都为离散型随机变量,且成对出现。一个x和y的组合为一个样本。比如行业分类为yv的一家单位有商品名称为金额为1000的发票项目,则产生样本xb=1000,y=yv。提取训练数据库中的所有样本,Y和X分别表示所有y和所有x的样本集合。给定任意一个商品名称和金额的组合特征x时,行业类别y的条件概率设为p(y/x)。设是p(x)在训练数据库中的经验分布,p(y|x)对应的条件熵为:优化的目标为选择最优的概率分布p(y|x),使得熵H(Y/X)最大。接下来建立上述组合特征与行业类别之间的特征指示函数,设fi(x,y)为特征指示函数,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m。fi(x,y)为:其中,fi(x,y)的产生过程为:i的取值初始值设为1,扫描整个训练数据库,每出现一次新的xa和y的取值组合,记录和yi,i递增,直到不再出现新的xa和y的取值组合,M为xa和y的取值组合的个数,其值等于最终i的值减1。或者i的取值初始值设为0,扫描整个训练数据库,每出现一次新的xa和y的取值组合,记录和yi,i递增,直到不再出现新的xa和y的取值组合,M为xa和y的取值组合的个数,在这种情况下,M的值等于最终i的值。设和yi为fi(x,y)对应的特征,即fi(x,y)在xa和y为特定取值和yi时有效,则fi(x,y)的定义为:因为本专利技术实施例对最大熵模型进行了改进,将商品名称和金额的组合作为特征,所以相应地,特征指示函数也不一样,在现有的最大熵模型中,特征指示函数是一个要么是1,要么是0的二值函数,本专利技术实施例中的特征指示函数在满足y=yi时,其值为商品名称对应的金额。设是p(x,y)在训练数据库中的经验分布。设约束条件为两个等值约束,第一个约束条件是对所有的x,∑yp(y|x)=1;第二个约束条件是对所有的i,建立这些约束条件下最大化H(Y|X)的拉本文档来自技高网...

【技术保护点】
1.一种行业类别的识别方法,其特征在于,包括:提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。

【技术特征摘要】
1.一种行业类别的识别方法,其特征在于,包括:提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。2.根据权利要求1所述的识别方法,其特征在于,所述提取待识别发票的预定特征之前包括:将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量,其中,n≥1。3.根据权利要求1或2所述的识别方法,其特征在于,所述预定特征为发票的商品名称和金额的组合特征。4.根据权利要求3所述的识别方法,其特征在于,所建立的预定特征与行业类别之间的特征指示函数为:其中,xa为所述训练数据库中n张发票的商品名称,xb为所述训练数据库中n张发票的金额,x为xa和xb的组合特征,y为行业类别,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m,m为所述已知行业类别的n张发票的行业类别的种类个数。5.根据权利要求3所述的识别方法,其特征在于,所述采用拉格朗日乘子法计算得到的条件概率的最优解为:其中,Z(x)为归一化因子,且所得到的最优拉格朗日乘子向量V=(λ1,,λ2,……λM)。6.根据权利要求5所述的识别方法,其特征在于,所述根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别为:根据公式将待识别发票的商品名称xa和...

【专利技术属性】
技术研发人员:胡懋地舒南飞
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1