企业的分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:31490312 阅读:12 留言:0更新日期:2021-12-18 12:26
本申请涉及一种企业的分类方法、装置、计算机设备和存储介质。所述方法包括:获取多个分类词文本,以及待分类企业的企业描述文本;确定企业描述文本与每个分类词文本之间的相似度;根据相似度,从多个分类词文本中确定目标分类词文本;根据目标分类词文本对待分类企业进行分类。采用本方法无需人工预先对模型标注大量的训练数据,极大减少了数据准备的时长,简化了数据准备的过程,进而有效提高了企业分类的效率。业分类的效率。业分类的效率。

【技术实现步骤摘要】
企业的分类方法、装置、计算机设备和存储介质


[0001]本申请涉及文本分类
,特别是涉及一种企业的分类方法、装置、计算机设备和存储介质。

技术介绍

[0002]在企业的经营过程中,从企业角度出发做的行业分析必不可少,而做行业分析首先要确定行业分类。但随着我国经济的不断发展,科技的不断进步,顺应时代而生的新兴行业与日俱增,现有的经济行业分类未包含新兴行业的类别信息,难以确定隶属于新兴行业的企业的类别信息。因此,需要根据企业的业务信息重新对企业所属的行业进行分类。
[0003]传统技术中,对企业进行分类可以采用支持向量机、朴素贝叶斯、决策树等文本分类模型实现。对待分类企业采用模型提取企业信息中的文本特征,获取文本特征与模型内预设的行业类别的相关度,取相关度最高的那个行业类别作为待分类企业的分类。但是,采用传统技术中分类方式需要预先人工标注大量的数据,存在费时费力、工作繁琐的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高企业分类效率的企业的分类方法、装置、计算机设备和存储介质。
[0005]第一方面,本申请实施例提供一种企业的分类方法,所述方法包括:
[0006]获取多个分类词文本,以及待分类企业的企业描述文本;
[0007]确定所述企业描述文本与每个所述分类词文本之间的相似度;
[0008]根据所述相似度,从多个所述分类词文本中确定目标分类词文本;
[0009]根据所述目标分类词文本对所述待分类企业进行分类。
>[0010]在其中一个实施例中,所述确定所述企业描述文本与每个所述分类词文本之间的相似度,包括:
[0011]将所述企业描述文本输入至主题模型,生成与所述企业描述文本对应的企业语义表示;
[0012]将每个所述分类词文本输入至所述主题模型,生成与每个所述分类词文本对应的分类语义表示;
[0013]通过所述主题模型得到所述企业语义表示以及每个所述分类语义表示的相似度,作为所述企业描述文本与每个所述分类词文本之间的相似度。
[0014]在其中一个实施例中,获取待分类企业的企业描述文本,包括:
[0015]从多个业务维度采集得到所述待分类企业的多个企业描述信息;
[0016]对多个所述企业描述信息进行拼接处理,得到初始企业描述文本;
[0017]对所述初始企业描述文本进行数据清洗,得到所述企业描述文本。
[0018]在其中一个实施例中,所述获取多个分类词文本,包括:
[0019]获取分类词库,所述分类词库包括多个分类词,以及每个所述分类词对应的分类
路径;
[0020]根据所述分类词,以及所述分类词库中所述分类词对应的分类路径,生成所述分类词文本。
[0021]在其中一个实施例中,所述方法还包括:
[0022]从所述企业描述文本提取得到主题词;
[0023]将主题词更新至所述分类词库中。
[0024]在其中一个实施例中,所述从所述企业描述文本提取得到主题词,包括:
[0025]通过第一词提取模型从所述企业描述文本中提取得到第一主题词;
[0026]通过第二词提取模型从所述企业描述文本对应的所述企业语义表示中提取得到第二主题词;
[0027]根据所述第一主题词和所述第二主题词确定所述主题词。
[0028]在其中一个实施例中,所述将主题词更新至所述分类词库中,包括:
[0029]确定所述主题词与每个所述分类词之间的关联关系;
[0030]根据所述主题词与每个所述分类词之间的关联关系确定所述主题词在所述分类词库中的分类路径;
[0031]根据所述主题词在所述分类词库中的分类路径,将所述主题词更新至所述分类词库中。
[0032]第二方面,本申请实施例提供一种企业的分类装置,所述装置包括:
[0033]文本获取模块,用于获取多个分类词文本,以及待分类企业的企业描述文本;
[0034]相似度确定模块,用于确定所述企业描述文本与每个所述分类词文本之间的相似度;
[0035]企业分类模块,用于根据所述相似度,从多个所述分类词文本中确定目标分类词文本;根据所述目标分类词文本对所述待分类企业进行分类。
[0036]第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的企业的分类方法。
[0037]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的企业的分类方法。
[0038]上述企业的分类方法、装置、计算机设备和存储介质,通过获取待分类企业的企业描述文本以及分类词文本之间的相似度,根据相似度确定企业描述文本对应的目标分类词文本,使用目标分类词文本对待分类企业进行分类,无需人工预先对模型标注大量的训练数据,极大减少了数据准备的时长,简化了数据准备的过程,进而有效提高了企业分类的效率。
附图说明
[0039]为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为一个实施例中企业的分类方法的流程示意图;
[0041]图2为一个实施例中确定相似度步骤的流程示意图;
[0042]图3为一个实施例中获取企业描述文本步骤的流程示意图;
[0043]图4为一个实施例中确定主题词步骤的流程示意图;
[0044]图5为一个实施例中将主题词更新至分类词库步骤的流程示意图;
[0045]图6为一个实施例中企业的分类方法的流程示意图;
[0046]图7为一个实施例中企业的分类装置的结构框图;
[0047]图8为一个实施例中计算机设备的内部结构图。
具体实施方式
[0048]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0049]需要说明的是,本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0050]本申请提供的企业的分类方法,可以应用于计算机设备中。计算机设备可以是终端,或者本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种企业的分类方法,其特征在于,所述方法包括:获取分类词库,根据所述分类词库中包括的多个分类词,以及每个所述分类词对应的分类路径生成多个分类词文本;获取待分类企业的企业描述文本;通过主题模型确定所述企业描述文本与每个所述分类词文本之间的距离,将所述距离作为相似度;根据所述相似度,从多个所述分类词文本中确定目标分类词文本;根据所述目标分类词文本对所述待分类企业进行分类;所述方法还包括:根据所述企业描述文本得到主题词,采用所述主题词对所述分类词库进行更新,所述主题词包括第一主题词以及第二主题词,其中,所述第一主题词为所述企业描述文本中的显性主题词,所述第二主题词为所述企业描述文本中的隐性主题词。2.根据权利要求1所述的方法,其特征在于,所述通过主题模型确定所述企业描述文本与每个所述分类词文本之间的距离,将所述距离作为相似度,包括:将所述企业描述文本输入至主题模型,生成与所述企业描述文本对应的企业语义表示;将每个所述分类词文本输入至所述主题模型,生成与每个所述分类词文本对应的分类语义表示;通过所述主题模型得到所述企业语义表示以及每个所述分类语义表示的距离,将所述距离作为所述企业描述文本与每个所述分类词文本之间的相似度。3.根据权利要求1所述的方法,其特征在于,所述获取待分类企业的企业描述文本,包括:从多个业务维度采集得到所述待分类企业的多个企业描述信息;对多个所述企业描述信息进行拼接处理,得到初始企业描述文本;对所述初始企业描述文本进行数据清洗,得到所述企业描述文本。4.根据权利要求1所述的方法,其特征在于,所述根据所述企业描述文本得到主题词,包括:通过第一词提取模型从所述企业描述文本中提取得到所述第一主题词。5.根据权利要求4所述的方法,其特征在于,所述根据所述企业描述文本得到主题词,还包括:通过第...

【专利技术属性】
技术研发人员:龚朝辉柴玉倩陶予祺
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1