一种企业信息分类方法及装置制造方法及图纸

技术编号:16270028 阅读:47 留言:0更新日期:2017-09-22 21:42
本发明专利技术涉及数据分析技术领域,尤其涉及一种企业信息分类方法及装置,为了能及时录入海量的企业信息,并快速对其进行正确分类,该方法为,通过从获取的待分类企业信息中提取符合设定规则的若干词语,并将每两个词语确定为一个词语对,然后,基于预设的耦合网络模型,确定每一个词语对在预设的每一种企业类型中的完整相关性,进而,确定各个词语对属于每一种企业类型的耦合概率,并将最大耦合概率对应的企业类型确定为待分类企业信息的企业类型,这样,对于直接获取的待分类企业信息,能基于各个词语间的语义关联度,确定对应的企业类型,提高了分类的准确性,而且,由于无需任何人工操作,提高了处理效率,进而提升了客户体验。

【技术实现步骤摘要】
一种企业信息分类方法及装置
本专利技术涉及数据分析
,尤其涉及一种企业信息分类方法及装置。
技术介绍
互联网技术的蓬勃发展,带动了科技、媒体、通信(TechnologyMediaTelecom,TMT)企业的井喷式增长,为了便于用户能从海量的企业信息中,迅速查询到所关注企业的相关信息,现有技术下,预先通过人工方式逐一录入海量的企业信息,然后,人工对录入的所有企业信息进行分类,获得分类结果,这样,用户就能基于分类结果,快速定位到所关注企业,进一步地获取到企业的相关信息。显然,目前,仍采用人工方式,对大数据量的企业信息进行信息录入和信息分类,不仅无法及时更新企业信息,导致处理耗时加长,还容易造成企业信息分类不准确,进一步影响用户体验。有鉴于此,需要设计一种新的企业信息分类方法以克服上述缺陷。
技术实现思路
本专利技术实施例提供一种企业信息分类方法及装置,用以能及时录入海量的企业信息,并快速对其进行正确分类。本专利技术实施例提供的具体技术方案如下:一种企业信息分类方法,包括:获取待分类企业信息,以及从所述待分类企业信息中提取符合设定规则的若干词语,并将每两个词语确定为一个词语对;基于预设本文档来自技高网...
一种企业信息分类方法及装置

【技术保护点】
一种企业信息分类方法,其特征在于,包括:获取待分类企业信息,以及从所述待分类企业信息中提取符合设定规则的若干词语,并将每两个词语确定为一个词语对;基于预设的耦合网络模型,分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性,其中,完整相关性用于表征两个词语之间的语义关联度,所述每一种企业类型的企业级别相同;分别基于所述每一个词语对在所述每一种企业类型中对应的完整相关性,确定各个词语对属于每一种企业类型的耦合概率,并将最大耦合概率对应的企业类型,确定为所述待分类企业信息在当前企业级别下的企业类型。

【技术特征摘要】
1.一种企业信息分类方法,其特征在于,包括:获取待分类企业信息,以及从所述待分类企业信息中提取符合设定规则的若干词语,并将每两个词语确定为一个词语对;基于预设的耦合网络模型,分别确定每一个词语对在预设的每一种企业类型中对应的完整相关性,其中,完整相关性用于表征两个词语之间的语义关联度,所述每一种企业类型的企业级别相同;分别基于所述每一个词语对在所述每一种企业类型中对应的完整相关性,确定各个词语对属于每一种企业类型的耦合概率,并将最大耦合概率对应的企业类型,确定为所述待分类企业信息在当前企业级别下的企业类型。2.如权利要求1所述的方法,其特征在于,获取待分类企业信息之前,进一步包括:获取若干条企业信息,并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息,组成训练样本集,其中,所述训练样本集中的每一条企业信息都已确定各自对应的企业类型;按照所述训练样本集中各条企业信息各自对应的企业类型,将归属同一企业类型的各条企业信息确定为一个训练样本子集,其中,一个训练样本子集对应一种企业类型,各个训练样本子集各自对应的企业类型的企业级别相同;分别针对每一个训练样本子集的每一条企业信息执行以下操作:提取符合设定数目或设定数目范围的关键词,组成关键词集合;将所述关键词集合中每两个关键词确定为一个关键词对,并分别计算每一个关键词对中两个关键词之间的完整相关性。3.如权利要求2所述的方法,其特征在于,获取若干条企业信息,并从所述若干条企业信息中筛选出符合设定筛选规则的若干条企业信息,组成训练样本集,其中,所述训练样本集中的每一条企业信息都已确定各自对应的企业类型,包括:采用预设的网络爬虫装置爬取若干条企业信息,以及分别从爬取到每一条企业信息中,提取各自包含的企业名称和企业简介信息,组成各自的信息对,并分别针对每一个信息对,执行以下操作:采用句式分割,提取信息对的企业简介信息中包含的若干单句;分别对每一个单句执行语义挖掘,提取各个单句各自包含的主谓宾成分,并基于所述各个单句各自包含的主谓宾成分,构造所述各个单句各自符合行业分类规则的正则句式;筛选出确定存在至少一个正则句式的各个信息对,组成训练样本集,并分别针对所述训练样本集中的每一个信息对,执行以下操作:基于预设规则,从对应的至少一个正则句式中筛选出目标正则句式,并基于所述目标正则句式,确定对应的企业类型。4.如权利要求3所述的方法,其特征在于,基于预设规则,从对应的至少一个正则句式中筛选出目标正则句式,并基于所述目标正则句式,确定对应的企业类型,包括:按照所述至少一个正则句式在企业简介信息中的排序,将靠前的正则句式确定为目标正则句式,并基于所述目标正则句式,将相应信息对召回至相应的企业类型处;或者,从所述至少一个正则句式中,随机选取一个正则句式作为目标正则句式,并基于所述目标正则句式,将相应信息对召回至相应的企业类型处。5.如权利要求2、3或4所述的方法,其特征在于,将所述关键词集合中每两个关键词确定为一个关键词对,并分别计算每一个关键词对中两个关键词之间的完整相关性,包括:基于方差分布,分别计算所述关键词集合中每一个关键词在相应企业简介信息中所占的权重值,以及将所述关键词集合中的每两个关键词确定为一个关键词对,并分别基于每一个关键词对中的两个关键词各自对应的权重值,确定所述每一个关键词对中两个关键词之间的同现相关性,其中,同现相关性表征两个关键词同时出现的关联性;分别基于所述每一个关键词对中两个关键词之间的同现相关性,确定所述每一个关键词对中两个关键词之间的同现相关概率,其中,同现相关概率表征两个关键词之间的同现相关性,占所属关键词集合中所有关键词对的同现相关性的比例;分别针对每一个关键词对,执行以下操作:判定存在至少一个中间关键词,使得关键词对中的两个关键词各自与所述至少一个中间关键词之间的同现相关概率均大于零时,基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率,确定所述两个关键词之间的耦合相关性;分别基于所述每一个关键词对中两个关键词之间的同现相关概率和耦合相关性,确定所述每一个关键词对中两个关键词之间的完整相关性。6.如权利要求5所述的方法,其特征在于,基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率,确定所述两个关键词之间的耦合相关性,包括:基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率,确定所述两个关键词与所述至少一个中间关键词之间的条件相关性,其中,两个关键词与一个中间关键词之间存在条件相关性,表示以上述一个中间关键词为条件,上述两个关键词之间具有关联性;基于所述两个关键词与所述至少一个中间关键词之间的条件相关性,确定所述两个关键词之间的耦合相关性。7.如权利要求6所述的方法,其特征在于,基于所述两个关键词各自与所述至少一个中间关键词之间的同现相关概率,确定所述两个关键词与所述至少一个中间关键词之间的条件相关性,包括:针对每一个中间关键词,执行以下操作:取所述两个关键词各自与所述中间关键词之间的同现相关概率中取值小的一方,作为所述两个关键词与所述中间关键词之间的条件相关性。8.如权利要求6所述的方法,其特征在于,基于所述两个关键词与所述至少一个中间关键词之间的条件相关性,确定所述两个关键词之间的耦合相关性,包括:对所述至少一个中间关键词中各个中间关键词,分别与所述两个关键词之间的条件相关性进行加权平均,将平均后的结果确定为所述两个关键词之间的耦合相关性。9.如权利要求1所述的方法,其特征在于,分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性,确定所述各个词语对属于每一种企业类型的耦合概率,包括:分别基于所述各个词语对在所述每一种企业类型中各自对应的完整相关性,确定所述各个词语对在所述每一种企业类型中的类条件概率;分别基于确定的所述各个词语对在所述每一种企业类型中的类条件概率,以及所述每一种企业类型的先验概率,确定所述各个词语对属于每一种企业类型的耦合概率。10.如权利要求1所述的方法,其特征在于,将最大耦合概率对应的企业类型,确定为所述待分类企业信息在当前企业级别下的企业类型之后,进一步包括:确定所述待分类企业信息在预设的各个不同企业级别下的企业类型;基于预设的多级筛选规则,从所述各个不同企业级别下的企业类型中筛选出一个企业类型,作为所述待分类企业信息的目标企业类型。11.一种企业信息分类装置,其特征在于,包括:数据获取单元,用于获取待分类企业信息,以及从所述待分类企业信息中提取符合设定规则的若干...

【专利技术属性】
技术研发人员:赵全颖张道泉曹培坤马超赵继广
申请(专利权)人:北京因果树网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1