一种企业标签的获取方法、获取装置、存储介质和计算机设备制造方法及图纸

技术编号:27532556 阅读:23 留言:0更新日期:2021-03-03 11:12
本发明专利技术公开了一种企业标签的获取方法、获取装置、存储介质和计算机设备,所述企业标签的获取方法不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。企业。企业。

【技术实现步骤摘要】
一种企业标签的获取方法、获取装置、存储介质和计算机设备


[0001]本专利技术涉及金融行业企业分类
,尤其涉及一种企业标签的获取方法、获取装置、存储介质和计算机设备。

技术介绍

[0002]随着科学技术的进步和经济的飞速发展,一些企业为了扩大发展范围,需要引进投资人对其进行投资,对于投资人而言,选择企业时往往需要从海量的数据中获取感兴趣的内容,大大降低了投资人查找投资企业的效率。

技术实现思路

[0003]本专利技术所解决的技术问题是提供一种企业标签的获取方法、获取装置、存储介质和计算机设备,投资人利用对企业标签进行企业查找,提高了企业查找的效率。
[0004]本专利技术所采用的技术方案内容具体如下:
[0005]一种企业标签的获取方法,包括如下步骤:
[0006]获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
[0007]对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;
[0008]获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
[0009]获取每个所述候选关键词的热度值;
[0010]根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
[0011]将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0012]作为上述方案的优选,获取每个所述候选关键词的初始权重:
[0013]根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;
[0014]根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;
[0015]根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;
[0016]根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参
数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;
[0017]根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0018]作为上述方案的优选,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
[0019]根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
[0020]根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词;
[0021]利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0022]作为上述方案的优选,获取每个所述候选关键词的热度值包括如下步骤:
[0023]将候选关键词作为统计项目统计候选关键词的词汇热度;
[0024]将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
[0025]将所述词汇热度和所述集合热度相加,得到候选关键词的检索热度。
[0026]作为上述方案的优选,所述词汇热度和所述集合热度的统计方法相同,且该统计方法为:
[0027]设定统计起始时间,将统计起始时间与所述整体热度或所述词汇热度或所述集合热度的计算时间之间的时长划分为若干个时间段;
[0028]按照距离当前时间越远对热度值贡献程度越低的方式对所述整体热度或所述词汇热度或所述集合热度进行加权处理,即:其中:λ
j
为第j个时间段对应的权重值,且越靠近热度值计算的时间段,其对应的权重值越大;β
ij
为在第j个时间段内所述整体热度或所述词汇热度或所述集合热度的统计项目被采集到的次数。
[0029]作为上述方案的优选,根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值的计算公式为:
[0030][0031]本专利技术还公开了一种企业标签的获取装置,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块、计算模块和确定模块,其中:所述第一获取模块获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
所述第二获取模块对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块获取每个所述候选关键词的热度值;所述计算模块根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0032]本专利技术还公开了一种计算机设备,包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现所述的企业标签的获取方法的步骤。
[0033]本专利技术还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的企业标签的获取方法的步骤。
[0034]与现有技术相比,本专利技术的有益效果在于:
[0035]本专利技术公开的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业标签的获取方法,其特征在于,包括如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。2.根据权利要求1所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词的初始权重:根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。3.根据权利要求2所述的企业标签的获取方法,其特征在于,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量A,且第一向量为A=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量B,且第一向量为B=(r
j...

【专利技术属性】
技术研发人员:柴源
申请(专利权)人:北京创业光荣信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1