The present paper discloses a classification method and device; the above classification method includes the following steps: obtaining the predetermined text of the enterprise to be classified, in which the predetermined text refers to the text describing the attribute information of the enterprise to be classified, and the length of the predetermined text is greater than or equal to the predetermined value; based on a plurality of characteristic words of each category, the reservation is made. The text corresponds to the feature vector of the category; determines whether the classified enterprise belongs to the category according to the feature vectors of each category.
【技术实现步骤摘要】
一种分类方法及装置
本专利技术涉及数据处理技术,尤其涉及一种分类方法及装置。
技术介绍
目前,企业服务类应用获取互联网上的海量企业数据,如招聘信息、工商登记信息、各类专利及专利转化数据等,通过整合这些分散的数据为企业构建画像。在这个过程中,需要区分企业的类别,例如,行业类别、服务类别、业务类别等。然而,目前对企业类别的划分一般需要人工判断,导致分类准确性和效率较低。以行业类别为例,企业行业是企业聚类的天然准则。企业服务类应用包含企业名称归一、企业经济指数计算、企业发展潜力值计算、企业数据可视化等模块,这些模块的构建都依赖于企业的行业类别。比如,在计算企业发展潜力值时,一个重要的指标就是企业所属行业的发展情况;进行企业数据可视化时,以行业类别为维度进行展示。然而,目前在互联网上的企业数据,只有少部分带有指示行业类别的行业标签,而这些行业标签可能是人工随机确定的,没有全面考虑与企业业务范畴相关的多个行业类别。另外,行业标签的粒度存在不统一的情况,比如某企业在a网站被标记为O2O(OnlineToOffline,线上到线下),在b网站被标记为电商,在c网站被标记为互联网。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种分类方法及装置,能够基于预定文本对企业进行自动分类,从而提高企业分类的准确性和实用性。本申请实施例提供一种分类方法,包括:获取待分类企业的预定文本,其中,预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别 ...
【技术保护点】
1.一种分类方法,其特征在于,包括:获取待分类企业的预定文本,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。
【技术特征摘要】
1.一种分类方法,其特征在于,包括:获取待分类企业的预定文本,所述预定文本指描述所述待分类企业的属性信息的文本,且所述预定文本的长度大于或等于预定值;基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量;根据每个类别的特征向量,确定所述待分类企业是否属于所述类别。2.根据权利要求1所述的分类方法,其特征在于,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别,包括:将每个类别的特征向量输入所述类别的二分类模型,得到预测结果;根据所述预测结果,确定所述待分类企业是否属于所述类别;或者,在每个类别的特征向量满足所述类别对应的第一预定条件时,确定所述待分类企业属于所述类别。3.根据权利要求2所述的分类方法,其特征在于,所述根据所述预测结果,确定所述待分类企业是否属于所述类别,包括:当所述预测结果为1时,确定所述待分类企业属于所述类别;当所述预测结果为0时,确定所述待分类企业不属于所述类别。4.根据权利要求2所述的分类方法,其特征在于,所述根据每个类别的特征向量,确定所述待分类企业是否属于所述类别之前,所述分类方法还包括:通过以下方式分别得到每个类别的二分类模型:建立所述类别的二分类模型;确定训练样本;基于所述类别的多个特征词,构建每个训练样本对应所述类别的特征向量;以每个训练样本对应所述类别的特征向量作为输入,训练所述类别的二分类模型。5.根据权利要求4所述的分类方法,其特征在于,所述训练所述类别的二分类模型,包括:周期性训练所述类别的二分类模型。6.根据权利要求2所述的分类方法,其特征在于,所述类别对应的第一预定条件,包括以下至少之一:特征向量中第一数值的数目满足阈值条件、特征向量中第一数值集中分布在预定区域。7.根据权利要求1所述的分类方法,其特征在于,所述分类方法还包括:通过以下方式分别提供每个类别的多个特征词:获取多个企业的预定文本作为第一样本;针对每个类别分别进行以下处理:根据预设的类别映射表,将所述多个第一样本区分为第二样本和第三样本,其中,第二样本属于所述类别,第三样本不属于所述类别;根据所述第二样本和第三样本,确定所述类别的多个特征词。8.根据权利要求7所述的分类方法,其特征在于,所述根据所述第二样本和第三样本,确定所述类别的多个特征词,包括:统计预处理后的第二样本中的词;根据所述第二样本和所述第三样本,确定所述每个词的卡方值;选择卡方值满足第二预定条件的词作为所述类别的特征词。9.根据权利要求1所述的分类方法,其特征在于,所述基于每个类别的多个特征词,构建所述预定文本对应所述类别的特征向量,包括:在所述类别的一个特征词出现在所述预定文本时,确定所述特征词对应的特征值为第一数值;在所述类别的一个特征词没有出现在所述预定文本时,确定所述特征词对应的特征值为第二数值;根据所述类别的全部特征词对应的特征值,构建所述预定文本对应所述类别的特征向量。10.根据权利要求1所述的分类方法,其特征在于,所述获取待分类企业的预定文本之后,所述分类方法还包括:根据预设的类别映射表,得到所述预定文本的映射结果;根据所述映射结果,确定所述待分类企业所属的类别;所述根据每个的特征向量,确定所述待分类企业是否...
【专利技术属性】
技术研发人员:徐宇,任寅姿,孙艳,向邦宇,杨建伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。