【技术实现步骤摘要】
企业选址意愿识别方法、系统、计算机设备以及存储介质
[0001]本专利技术属于企业选址
,特别涉及一种企业选址意愿识别方法、系统、计算机设备以及存储介质。
技术介绍
[0002]企业选址的技术背景主要是考虑企业以及各相关方等综合因素后计算的企业选址概率,已有公开的专利很多是基于选址要素打分方法。例如:专利文献1公开了一种确定企业选址的方法、装置、电子设备及介质。
[0003]该文献中提供了一种利用地块选址打分模型对每个地块的预设指数进行打分,以使得企业根据每个地块的预设指数的分数进行选址的方法。
[0004]专利文献2公开了一种建设项目规划选址系统及方法。
[0005]该文献通过对规划和现状等各类信息对比分析,并根据建设项目的规划建设要求,能够快速过滤出满足条件的可建设地块,汇总计算意向地块的总分,自动生成选址报告。
[0006]然而,上述选址要素打分方法,在实际应用中多存在如下问题:此类方法考虑要素与计算逻辑较简单,可扩展性差,在实际应用中准确率不高;而且一般常见的方法通常只考虑企业一 ...
【技术保护点】
【技术特征摘要】
1.一种企业选址意愿识别方法,其特征在于,包括如下步骤:步骤1. 根据输入的词语与新闻文章进行匹配度计算,筛选出与输入的词语相匹配的新闻文章;步骤2. 根据企业选址意愿词库以及与该企业选址意愿词库的语义关系,从筛选出的新闻文章中,进一步筛选出有选址意愿的新闻文章;步骤3. 利用文本分类模型对筛选出的有选址意愿的新闻文章进行行业分类;步骤4. 利用实体识别模型对筛选出的有选址意愿的新闻文章进行企业名称挖掘。2.根据权利要求1所述的企业选址意愿识别方法,其特征在于,所述步骤1中,根据输入的词语与新闻文章进行匹配度计算的过程如下:步骤1.1. 首先根据文本字符串进行匹配,判断输入的词语word是否在新闻文章text中,若在,则该输入的词语与新闻文章的匹配度为1;若输入的词语word不在新闻文章text中,则转到步骤1.2;步骤1.2. 计算词语word的词向量word_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(word_vector, text_vector);若sim(word_vector, text_vector)大于或等于threshold_sim,则选择新闻;其中,threshold_sim为预设的选择新闻的阈值。3.根据权利要求2所述的企业选址意愿识别方法,其特征在于,所述步骤1.2中,语义相似分sim(word_vector, text_vector)的计算过程如下:定义word_vector=[word_vector(w1), word_vector(w2),
ꢀ…
, word_vector(w
N
)];其中,word_vector(w
j
)表示词语word的词向量的第j个维度,N表示向量的维度,j∈[1,N];定义text_vector=[text_vector(w1), text_vector(w2),
ꢀ…
, text_vector(w
N
)];其中,text_vector(w
j
)表示新闻文章text的文本向量text_vector的第j个维度;text_vector(w
j
)的计算公式如下:;其中,word_i表示新闻文章text中第i个词语的词向量;word_i= [word_i(w1), word_i(w2),
ꢀ…
, word_i(w
N
)];其中,word_i(w
j
)表示新闻文章text中第i个词语的词向量的第j个维度;L表示新闻文章text中词语的个数,i∈[1,L];则语义相似分sim(word_vector, text_vector)的计算公式如下:。4.根据权利要求1所述的企业选址意愿识别方法,其特征在于,所述步骤2中,筛选有选址意愿的新闻文章的过程如下:步骤2.1. 若新闻文章中包含企业选址意愿词库中的至少一个词语,则该新闻被筛选
出,并作为有选址意愿的新闻文章;否则,转到步骤2.2;步骤2.2. 计算企业选址意愿词库的平均词向量word_pick_list_vector与新闻文章text的文本向量text_vector之间的语义相似分sim(text_vector, word_pick_list_vector);若语义相似分sim(text_vector, word_pick_list_vector)大于或等于预设的筛选新闻阈值threshold_sim_pick,则该新闻被筛选,并作为有选址意愿的新闻文章。5.根据权利要求4所述的企业选址意愿识别方...
【专利技术属性】
技术研发人员:周泽伟,金霞,杨红飞,
申请(专利权)人:杭州费尔斯通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。