一种分类方法及装置制造方法及图纸

技术编号:18367702 阅读:24 留言:0更新日期:2018-07-05 09:20
本文公开了一种分类方法及装置;上述分类方法包括以下步骤:获取待分类企业的预定文本,其中,预定文本指描述待分类企业的属性信息的文本,且预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建预定文本对应类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。

A classification method and device

The present paper discloses a classification method and device; the above classification method includes the following steps: obtaining the predetermined text of the enterprise to be classified, in which the predetermined text refers to the text describing the attribute information of the enterprise to be classified, and the length of the predetermined text is greater than or equal to the predetermined value; based on a plurality of characteristic words of each category, the reservation is made. The text corresponds to the feature vector of the category; determines whether the classified enterprise belongs to the category according to the feature vectors of each category.

【技术实现步骤摘要】
一种分类方法及装置
本专利技术涉及数据处理技术,尤其涉及一种分类方法及装置。
技术介绍
目前,企业服务类应用获取互联网上的海量企业数据,如招聘信息、工商登记信息、各类专利及专利转化数据等,通过整合这些分散的数据为企业构建画像。在这个过程中,需要区分企业的类别,例如,行业类别、服务类别、业务类别等。然而,目前对企业类别的划分一般需要人工判断,导致分类准确性和效率较低。以行业类别为例,企业行业是企业聚类的天然准则。企业服务类应用包含企业名称归一、企业经济指数计算、企业发展潜力值计算、企业数据可视化等模块,这些模块的构建都依赖于企业的行业类别。比如,在计算企业发展潜力值时,一个重要的指标就是企业所属行业的发展情况;进行企业数据可视化时,以行业类别为维度进行展示。然而,目前在互联网上的企业数据,只有少部分带有指示行业类别的行业标签,而这些行业标签可能是人工随机确定的,没有全面考虑与企业业务范畴相关的多个行业类别。另外,行业标签的粒度存在不统一的情况,比如某企业在a网站被标记为O2O(OnlineToOffline,线上到线下),在b网站被标记为电商,在c网站被标记为互联网。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种分类方法及装置,能够基于预定文本对企业进行自动分类,从而提高企业分类的准确性和实用性。本申请实施例提供一种分类方法,包括:获取待分类企业的预定文本,其中,预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。其中,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别,可以包括:将每个类别的特征向量输入所述类别的二分类模型,得到预测结果;根据所述预测结果,确定所述待分类企业是否属于所述类别;或者,在每个类别的特征向量满足所述类别对应的第一预定条件时,确定所述待分类企业属于所述类别。其中,所述根据所述预测结果,确定所述待分类企业是否属于所述类别,可以包括:当所述预测结果为1时,确定所述待分类企业属于所述类别;当所述预测结果为0时,确定所述待分类企业不属于所述类别。其中,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别之前,所述分类方法还可以包括:通过以下方式分别得到每个类别的二分类模型:建立所述类别的二分类模型;确定训练样本;基于所述类别的多个特征词,构建每个训练样本对应所述类别的特征向量;以每个训练样本对应所述类别的特征向量作为输入,训练所述类别的二分类模型。其中,所述训练所述类别的二分类模型,可以包括:周期性训练所述类别的二分类模型。其中,所述类别对应的第一预定条件,可以包括以下至少之一:特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。其中,所述分类方法还可以包括:通过以下方式分别提供每个类别的多个特征词:获取多个企业的预定文本作为第一样本;针对每个类别分别进行以下处理:根据预设的类别映射表,将所述多个第一样本区分为第二样本和第三样本,其中,第二样本属于所述类别,第三样本不属于所述类别;根据所述第二样本和第三样本,确定所述类别的多个特征词。其中,所述根据所述第二样本和第三样本,确定所述类别的多个特征词,可以包括:统计预处理后的第二样本中的词;根据所述第二样本和所述第三样本,确定所述每个词的卡方值;选择卡方值满足第二预定条件的词作为所述类别的特征词。其中,所述基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量,可以包括:在所述类别的一个特征词出现在所述预定文本时,确定所述特征词对应的特征值为第一数值;在所述类别的一个特征词没有出现在所述预定文本时,确定所述特征词对应的特征值为第二数值;根据所述类别的全部特征词对应的特征值,构建所述预定文本对应所述类别的特征向量。其中,所述获取待分类企业的预定文本之后,所述分类方法还可以包括:根据预设的类别映射表,得到所述预定文本的映射结果;根据所述映射结果,确定所述待分类企业所属的类别;所述根据每个的特征向量,确定所述待分类企业是否属于所述类别之后,所述分类方法还包括:结合第一结果和第二结果,确定所述待分类企业所属的类别,其中,所述第一结果为根据预设的类别映射表确定的所述待分类企业所属的类别,所述第二结果为根据多个类别的特征向量确定的所述待分类企业所属的类别。其中,所述结合第一结果和第二结果,确定所述待分类企业所属的类别,可以包括:确定第一结果和第二结果的并集中的类别,作为所述待分类企业所属的类别。其中,所述获取待分类企业的预定文本之后,所述分类方法还可以包括:通过以下方式预处理所述预定文本:对所述预定文本进行归一化处理;对归一化处理后的预定文本进行分词及词性标注;过滤掉停词、非名词的词以及非动词的词,得到预处理后的预定文本。本申请实施例还提供一种分类装置,包括:获取模块,用于获取待分类企业的预定文本,其中,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;第一处理模块,用于基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;第二处理模块,用于根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。其中,所述第二处理模块,可以用于通过以下方式根据每个类别的特征向量,确定所述待分类企业是否属于所述类别:将每个类别的特征向量输入所述类别的二分类模型,得到预测结果;根据所述预测结果,确定所述待分类企业是否属于所述类别;或者,在每个类别的特征向量满足所述类别对应的第一预定条件时,确定所述待分类企业属于所述类别。其中,所述分类装置还可以包括:模型建立和训练模块,用于通过以下方式分别得到每个类别的二分类模型:建立所述类别的二分类模型;确定训练样本;基于所述类别的多个特征词,构建每个训练样本对应所述类别的特征向量;以每个训练样本对应所述类别的特征向量作为输入,训练所述类别的二分类模型。其中,所述分类装置还可以包括:第三处理模块,用于根据预设的类别映射表,得到所述预定文本的映射结果;根据所述映射结果,确定所述待分类企业所属的类别;第四处理模块,用于结合第一结果和第二结果,确定所述待分类企业所属的类别,其中,所述第一结果为根据预设的类别映射表确定的所述待分类企业所属的类别,所述第二结果为根据多个类别的特征向量确定的所述待分类企业所属的类别。本申请实施例还提供一种分类装置,包括:处理器和存储器;其中,存储器用于存储用于分类的程序;该用于分类的程序在被处理器读取执行时,执行以下操作:获取待分类企业的预定文本;其中,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。本申请实施例还提供一种分类方法,包括:预处理待分类企业的简介文本;采用预处理后的简介文本,对所述待分类企业所属的行业类别进行识别,得到识别结果;根据所述识别结果,标记所述待分类企业所属的行业类别。本申请实施例还提供一种计算机本文档来自技高网...
一种分类方法及装置

【技术保护点】
1.一种分类方法,其特征在于,包括:获取待分类企业的预定文本,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。

【技术特征摘要】
1.一种分类方法,其特征在于,包括:获取待分类企业的预定文本,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。2.根据权利要求1所述的分类方法,其特征在于,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别,包括:将每个类别的特征向量输入所述类别的二分类模型,得到预测结果;根据所述预测结果,确定所述待分类企业是否属于所述类别;或者,在每个类别的特征向量满足所述类别对应的第一预定条件时,确定所述待分类企业属于所述类别。3.根据权利要求2所述的分类方法,其特征在于,所述根据所述预测结果,确定所述待分类企业是否属于所述类别,包括:当所述预测结果为1时,确定所述待分类企业属于所述类别;当所述预测结果为0时,确定所述待分类企业不属于所述类别。4.根据权利要求2所述的分类方法,其特征在于,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别之前,所述分类方法还包括:通过以下方式分别得到每个类别的二分类模型:建立所述类别的二分类模型;确定训练样本;基于所述类别的多个特征词,构建每个训练样本对应所述类别的特征向量;以每个训练样本对应所述类别的特征向量作为输入,训练所述类别的二分类模型。5.根据权利要求4所述的分类方法,其特征在于,所述训练所述类别的二分类模型,包括:周期性训练所述类别的二分类模型。6.根据权利要求2所述的分类方法,其特征在于,所述类别对应的第一预定条件,包括以下至少之一:特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。7.根据权利要求1所述的分类方法,其特征在于,所述分类方法还包括:通过以下方式分别提供每个类别的多个特征词:获取多个企业的预定文本作为第一样本;针对每个类别分别进行以下处理:根据预设的类别映射表,将所述多个第一样本区分为第二样本和第三样本,其中,第二样本属于所述类别,第三样本不属于所述类别;根据所述第二样本和第三样本,确定所述类别的多个特征词。8.根据权利要求7所述的分类方法,其特征在于,所述根据所述第二样本和第三样本,确定所述类别的多个特征词,包括:统计预处理后的第二样本中的词;根据所述第二样本和所述第三样本,确定所述每个词的卡方值;选择卡方值满足第二预定条件的词作为所述类别的特征词。9.根据权利要求1所述的分类方法,其特征在于,所述基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量,包括:在所述类别的一个特征词出现在所述预定文本时,确定所述特征词对应的特征值为第一数值;在所述类别的一个特征词没有出现在所述预定文本时,确定所述特征词对应的特征值为第二数值;根据所述类别的全部特征词对应的特征值,构建所述预定文本对应所述类别的特征向量。10.根据权利要求1所述的分类方法,其特征在于,所述获取待分类企业的预定文本之后,所述分类方法还包括:根据预设的类别映射表,得到所述预定文本的映射结果;根据所述映射结果,确定所述待分类企业所属的类别;所述根据每个的特征向量,确定所述待分类企业是否...

【专利技术属性】
技术研发人员:徐宇任寅姿孙艳向邦宇杨建伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1