一种智能化企业标签提取方法技术

技术编号:36568352 阅读:10 留言:0更新日期:2023-02-04 17:24
本发明专利技术公开了一种智能化企业标签提取方法,对大量的企业信息,根据不同的数据源进行分类,对文本信息进行分词处理,对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来,然后进行关键词的清洗和关键词的排序,利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重,最后生成维度系数和评分模型,高层标签的提取,通过聚类模型提取高层标签,从而得到对应的高层标签,本发明专利技术一种智能化企业标签提取方法,标签分布的位置固定,同时适用于标签词典同行外企业,同时达到噪音值的关键词将被维护到噪音词库,减少噪音,综合提高了企业标签的提取质量。综合提高了企业标签的提取质量。

【技术实现步骤摘要】
一种智能化企业标签提取方法


[0001]本专利技术涉及人工智能领域,特别是涉及一种智能化企业标签提取方法。

技术介绍

[0002]随着企业数字化的发展,企业相关的信息在互联网上越来越丰富,人们在工作中需要一种方便快速的方式认识企业,企业标签是对企业的主要业务以及其他重要相关信息的高度抽象,通过企业标签可以快速的了解企业并找到自己感兴趣的企业,提升人们的工作效率。
[0003]目前,业界获取企业标签一种是依赖人工编写,先收集互联网上该公司的相关信息,然后进行筛选和总结,甚至需要对企业进行调研后才能给出标签,这种方式存在人工成本较大、效率很低、通常覆盖面不全,而且对于许多不太知名的企业通常没有提供足够的信息来生成标签。
[0004]此外还可以通过NLP技术生成企业标签,该方法也有较大的难度,一是企业标签不固定,无法使用处理标签分类方法来给企业打业务标签;二是企业的简介和业务相关的描述,需要在网上收集,且分布在位置不固定,所以使用单一的模型和算法,效果不佳。
[0005]标签词典方法是通过专业人士对样本企业的信息进行收集,根据人工提取标签形成标签词典;后续针对新的企业,使用精确匹配方式,将词典中那些出现在该企业简介以及其他描述文本中的词语提取出来作为企业标签,该方法主要是适用于跟标签词典同行的企业,无法应用于行业外企业。
[0006]针对企业多维度的文本信息,可以使用词性来生成标签,通过分词技术对文本进行分词,然后进行词法和词性判断,将满足要求的词提取出来,将作为企业标签,该方法虽然能够提取出足够的标签词,但通常引入过多的噪音,降低企业标签的质量。
[0007]鉴于此,为此,我们提供一种智能化企业标签提取方法。

技术实现思路

[0008]为了克服现有技术的不足,本专利技术提供一种智能化企业标签提取方法,以解决上述
技术介绍
中提出的问题。
[0009]为解决上述技术问题,本专利技术提供如下技术方案:一种智能化企业标签提取方法,包括以下步骤:
[0010]步骤S1,对大量的企业信息,根据不同的数据源进行分类;
[0011]步骤S2,对文本信息进行分词处理;
[0012]对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;
[0013]步骤S3,关键词清洗;
[0014]步骤S4,关键词排序;
[0015]利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重;
[0016](1)生成维度系数;
[0017](2)评分模型;
[0018]步骤S5,高层标签提取;
[0019]通过聚类模型提取高层标签。
[0020]作为本专利技术的一种优选技术方案,在步骤S3中,关键词清洗主要运用如下策略:
[0021](1)词性过滤
[0022]使用HanLP词性标注技术,识别出所有词的词性,准确度也非常高。去掉非常不合适做标签的词性,比如数词、介词、代词...,可以大大减少噪声词;
[0023](2)噪音词库过滤
[0024]提取企业各个维度的文本,如果一个关键词在当前维度频次越高,而在其它维度频次越低,则此关键词越有可能是当前维度的固定用语,根据当前维度频次和其它维度频次生成噪音值,达到噪音值的关键词将被维护到噪音词库。
[0025]作为本专利技术的一种优选技术方案,在步骤S4中,
[0026](1)生成维度系数
[0027]根据行业分类,对不同分类下标签重要程度进行评估,由于企业官网分类下的标签的关键词质量非常高,可以作为一个标准,通过分析其它维度是否出现这些官网标签及出现次数,来评估重要程度,从而生成维度系数;
[0028](2)评分模型
[0029]基础评分模型公式:关键词基础得分=所有命中维度*维度系数/所有非空维度数*维度系数;
[0030]当分值达到阈值,则此关键词作为企业的标签。
[0031]作为本专利技术的一种优选技术方案,调整策略:
[0032]a.如果当前公司带有官网标签,则对官网标签的词进行加权,提升关键词的分值;
[0033]b.计算关键词之间的相似度,如果一个关键词达到阈值被选中为标签,那么会动态地提升与该标签高相似度的关键词的分值。
[0034]作为本专利技术的一种优选技术方案,通过聚类模型提取高层标签的步骤如下:
[0035]1.对企业各维度的进行分词,清洗分词;
[0036]2.通过TF

IDF技术将之前生成的标签转化成词向量;
[0037]3.确定主题数量及主题词总量限制,然后开始建模;
[0038]4.将词向量带入LDA模型进行训练,得到一个企业的聚类模型;
[0039]5.将待提取高层标签的企业数据进行分词、向量化以后,带入训练好的聚类模型,预测企业在各个主题上的概率分布情况;
[0040]6.概率最高的主题作为当前企业的归属分类(主题),其主题词作为高层次标签补充到此类企业中;
[0041]7.后续新公司也只需带入聚类模型,即可预测出其归属分类,从而得到对应的高层标签。
[0042]与现有技术相比,本专利技术能达到的有益效果是:
[0043]本专利技术通过对大量的企业信息,根据不同的数据源进行分类,对文本信息进行分词处理,对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工
具,将文本中的词都分出来,然后进行关键词的清洗和关键词的排序,利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重,最后生成维度系数和评分模型,高层标签的提取,通过聚类模型提取高层标签,从而得到对应的高层标签,该企业标签提取方法,标签分布的位置固定,同时适用于标签词典同行外企业,同时达到噪音值的关键词将被维护到噪音词库,减少噪音,综合提高了企业标签的提取质量。
具体实施方式
[0044]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本专利技术,但下述实施例仅仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本专利技术的保护范围。下述实施例中的实验方法,如无特殊说明,均为常规方法,下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0045]实施例:
[0046]本专利技术提供一种智能化企业标签提取方法,包括以下步骤:
[0047]步骤S1,对大量的企业信息,根据不同的数据源进行分类;
[0048]步骤S2,对文本信息进行分词处理;
[0049]对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;
[0050]步骤S3,关键词清洗;
[0051]关键词清洗主要运用如下策略:
[0052](1)词性过滤...

【技术保护点】

【技术特征摘要】
1.一种智能化企业标签提取方法,其特征在于,包括以下步骤:步骤S1,对大量的企业信息,根据不同的数据源进行分类;步骤S2,对文本信息进行分词处理;对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;步骤S3,关键词清洗;步骤S4,关键词排序;利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重;(1)生成维度系数;(2)评分模型;步骤S5,高层标签提取;通过聚类模型提取高层标签。2.根据权利要求1所述的一种智能化企业标签提取方法,其特征在于,在步骤S3中,关键词清洗主要运用如下策略:(1)词性过滤使用HanLP词性标注技术,识别出所有词的词性,准确度也非常高。去掉非常不合适做标签的词性,比如数词、介词、代词...,可以大大减少噪声词;(2)噪音词库过滤提取企业各个维度的文本,如果一个关键词在当前维度频次越高,而在其它维度频次越低,则此关键词越有可能是当前维度的固定用语,根据当前维度频次和其它维度频次生成噪音值,达到噪音值的关键词将被维护到噪音词库。3.根据权利要求1所述的一种智能化企业标签提取方法,其特征在于,在步骤S4中,(1)生成维度系数根据行业分类,对不同分类下标签重要程度进行评估,由于企业官网分类下的标签的关键词质量非常高,可以作为一个标准,通过分析其...

【专利技术属性】
技术研发人员:李庆峰孙永磊
申请(专利权)人:珠海绘客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1