【技术实现步骤摘要】
一种企业标签的获取方法、获取装置、存储介质和计算机设备
[0001]本专利技术涉及金融行业企业分类
,尤其涉及一种企业标签的获取方法、获取装置、存储介质和计算机设备。
技术介绍
[0002]随着科学技术的进步和经济的飞速发展,一些企业为了扩大发展范围,需要引进投资人对其进行投资,对于投资人而言,选择企业时往往需要从海量的数据中获取感兴趣的内容,大大降低了投资人查找投资企业的效率。
技术实现思路
[0003]本专利技术所解决的技术问题是提供一种企业标签的获取方法、获取装置、存储介质和计算机设备,投资人利用对企业标签进行企业查找,提高了企业查找的效率。
[0004]本专利技术所采用的技术方案内容具体如下:
[0005]一种企业标签的获取方法,包括如下步骤:
[0006]获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
[0007]对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;
[0008]获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
[0009]获取每个所述候选关键词的热度值;
[0010]根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
[0011]将权重优化值超过预设阈值的候选关键词确定为企业标签。
[001 ...
【技术保护点】
【技术特征摘要】
1.一种企业标签的获取方法,其特征在于,包括如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。2.根据权利要求1所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词的初始权重:根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。3.根据权利要求2所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(r
j...
【专利技术属性】
技术研发人员:柴源,
申请(专利权)人:北京创业光荣信息科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。