一种电力行业关键词库的构建方法技术

技术编号:38331147 阅读:13 留言:0更新日期:2023-07-29 09:14
本说明书实施例提供一种电力行业关键词库的构建方法。所述方法包括:收集电力行业相关数据库,获取电力行业词库数据;对电力行业词库数据进行分词筛查,得到初始关键词库数据;对初始关键词库数据通过TF

【技术实现步骤摘要】
一种电力行业关键词库的构建方法


[0001]本说明书一个或多个实施例涉及词库构建
,尤其涉及一种电力行业关键词库的构建方法。

技术介绍

[0002]在电力行业,往往需要对专家专业领域、科技项目进行学科分类和领域归类,需要对科技项目进行量化分析,无论从国家重大战略实施的需求,到电力行业科研前沿和热点,或者实际工作需求和创新点等多个方面,全面了解国内外科技发展,关注相关领域内竞争对手的进展情况,分析电力行业最新的技术方向和关键领域。其中的一个基础工作是建立电力行业关键词库。通过电力行业关键词库结合文献资料调研的科技发展热点领域,以及行业内领域专家对于未来电力行业科技领域的发展重点确定公司重点科技成果培育项目。
[0003]但是,目前建立电力关键词库首先需要收集大量的电力行业术语,以往的词库构建往往基于大量语料库并利用传统的中文分词程序分词,由于电力行业关键词具有很强的专业性,仅仅依赖普通的分词方法很难准确识别专业术语。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例的目的在于提出一种电力行业关键词库的构建方法,使得建立的关键词库不仅包含关键词本身,还包含关键词之间的语义相似度测量,才能应用于科技项目量化和专家专业能力模型构建。
[0005]基于上述目的,本说明书一个或多个实施例提供了一种电力行业关键词库的构建方法,包括:
[0006]收集电力行业相关数据库,获取电力行业词库数据;
[0007]对电力行业词库数据进行分词筛查,得到初始关键词库数据;
>[0008]对初始关键词库数据通过TF

IDF统计方法计算初始关键词库中初始关键词的TF

IDF值;
[0009]根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度,根据语义相似度合并得到同义词库数据;
[0010]对同义词库数据通过TF

IDF统计方法计算同义词库数据中同义词的TF

IDF值;
[0011]基于初始关键词的TF

IDF值和同义词的TF

IDF值生成电力行业关键词库。
[0012]可选的,所述初始关键词的TF

IDF值由下列方式计算得到:
[0013]获取初始关键词库中初始关键词词频TF和逆文档频率IDF;
[0014]TF

IDF(初始关键词)=TF(初始关键词词频)
×
IDF(初始关键词逆文档频率);
[0015]所述同义词的TF

IDF值由下列方式计算得到:
[0016]获取同义词库数据中同义词词频TF和逆文档频率IDF;
[0017]TF

IDF(同义词)=TF(同义词词频)
×
IDF(逆文档频率IDF)。
[0018]可选的,所述初始关键词库数据中初始关键词词频TF和同义词库数据中同义词词
频TF分别由下列方式计算得到:
[0019]获取初始关键词在初始关键词库数据中出现的次数TN1及同义词在同义词库数据中出现的次数TN2;
[0020]获取初始关键词库数据中出现最多的词的出现次数TMAX1及同义词库数据中出现最多的词的出现次数TMAX2;
[0021]TF(初始关键词词频)=TN1÷
TMAX1;
[0022]TF(同义词词频)=TN2÷
TMAX2。
[0023]可选的,所述初始关键词库数据中初始关键词逆文档频率IDF和同义词库数据中同义词逆文档频率IDF分别由下列方式计算得到:
[0024]获取初始关键词库数据中初始关键词的总数量TP1及同义词库数据中同义词的总数量TP2;
[0025]获取初始关键词库数据中初始关键词的数量Tm1及同义词库数据中同义词的总数量Tm2;
[0026]IDF(初始关键词逆文档频率)=log[TP1/(Tm1+1)];
[0027]IDF(同义词逆文档频率)=log[TP2/(Tm2+1)]。
[0028]可选的,电力行业相关数据库包括电力行业专利数据库、电力行业科技文件数据库以及电力行业科技项目指南数据库中的一种或多种。
[0029]可选的,所述任意初始关键词两词之间的语义相似度由下列方式得到:
[0030]获取任意初始关键词两词之间的词语距离Dis(W1,W2),根据词语距离Dis(W1,W2)计算得到任意初始关键词两词之间的语义相似度Sim(W1,W2)。
[0031]可选的,所述语义相似度Sim(W1,W2)由下列方式计算得到:
[0032][0033]可选的,所述分词筛查为词典法或切分标记法。
[0034]本说明书的一个或多个实施例还提供了一种电力行业关键词库的构建电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下所述的方法:
[0035]收集电力行业相关数据库,获取电力行业词库数据;
[0036]对电力行业词库数据进行分词筛查,得到初始关键词库数据;
[0037]对初始关键词库数据通过TF

IDF统计方法计算初始关键词库中初始关键词的TF

IDF值;
[0038]根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度,根据语义相似度合并得到同义词库数据;
[0039]对同义词库数据通过TF

IDF统计方法计算同义词库数据中同义词的TF

IDF值;
[0040]基于初始关键词的TF

IDF值和同义词的TF

IDF值生成电力行业关键词库。
[0041]本说明书的一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如下所述方法:
[0042]收集电力行业相关数据库,获取电力行业词库数据;
[0043]对电力行业词库数据进行分词筛查,得到初始关键词库数据;
[0044]对初始关键词库数据通过TF

IDF统计方法计算初始关键词库中初始关键词的TF

IDF值;
[0045]根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度,根据语义相似度合并得到同义词库数据;
[0046]对同义词库数据通过TF

IDF统计方法计算同义词库数据中同义词的TF

IDF值;
[0047]基于初始关键词的TF

IDF值和同义词的TF

IDF值生成电力行业关键词库。
[0048]从上面所述可以看出,本说本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种电力行业关键词库的构建方法,其特征在于,包括:收集电力行业相关数据库,获取电力行业词库数据;对电力行业词库数据进行分词筛查,得到初始关键词库数据;对初始关键词库数据通过TF

IDF统计方法计算初始关键词库中初始关键词的TF

IDF值;根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度,根据语义相似度合并得到同义词库数据;对同义词库数据通过TF

IDF统计方法计算同义词库数据中同义词的TF

IDF值;基于初始关键词的TF

IDF值和同义词的TF

IDF值生成电力行业关键词库。2.根据权利要求1所述的一种电力行业关键词库的构建方法,其特征在于,所述初始关键词的TF

IDF值由下列方式计算得到:获取初始关键词库中初始关键词词频TF和逆文档频率IDF;TF

IDF(初始关键词)=TF(初始关键词词频)
×
IDF(初始关键词逆文档频率);所述同义词的TF

IDF值由下列方式计算得到:获取同义词库数据中同义词词频TF和逆文档频率IDF;TF

IDF(同义词)=TF(同义词词频)
×
IDF(逆文档频率IDF)。3.根据权利要求2所述的一种电力行业关键词库的构建方法,其特征在于,所述初始关键词库数据中初始关键词词频TF和同义词库数据中同义词词频TF分别由下列方式计算得到:获取初始关键词在初始关键词库数据中出现的次数TN1及同义词在同义词库数据中出现的次数TN2;获取初始关键词库数据中出现最多的词的出现次数TMAX1及同义词库数据中出现最多的词的出现次...

【专利技术属性】
技术研发人员:赵军愉柴小亮王强徐松晓杨伯青杨超董旭亮马秣然马晶晶王辉吕航
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1