面向继电保护的主题词识别方法、装置、存储器及设备制造方法及图纸

技术编号:34867246 阅读:42 留言:0更新日期:2022-09-08 08:12
本发明专利技术公开了一种面向继电保护的主题词识别方法、装置、存储器及设备,该方法将继电保护知识文本切分成一系列的词,对所得到的词进行筛选得到候选词;对候选词进行评分,基于评分从候选词中抽取主题词;对抽取的主题词进行修正,得到继电保护主题词。本发明专利技术方法克服了传统人工提取主题词费时费力的问题,并且合理利用电力领域多年积累的大量无监督数据,通过机器学习的方法提高了结果的准确率。机器学习的方法提高了结果的准确率。机器学习的方法提高了结果的准确率。

【技术实现步骤摘要】
面向继电保护的主题词识别方法、装置、存储器及设备


[0001]本专利技术涉及一种面向继电保护的主题词识别方法、装置、存储器及设备,属于电力系统继电保护


技术介绍

[0002]目前电力领域围绕电网智能运检、运行控制、企业管理和用电服务等领域开展人工智能自主创新,在输变电缺陷识别和故障诊断、现场作业安全智能管控、智慧客服、智能调度等方面已取得阶段性成果,但当前电力人工智能技术水平仍处于初级阶段,智能化应用较为零散,缺乏统一的平台化支撑,距离全面实用化仍有差距。而词是承载电力领域知识的最基本的语言单元,因此也是电力领域人工智能应用、人机交互中的基础资源。现有的继电保护技术资料多以文档与关系型数据的形式进行发布存储,缺少领域主题词的积累,如“继电保护”、“故障”、“定检”等等,对于后续电力系统开展人工智能应用产生了极大阻碍,高效准确地从继电保护技术资料中自动挖掘、识别主题词、自动检测新主题词也成为了助推电力领域人工智能应用的重要基础。
[0003]当前的主题词识别技术往往要通过人工方式不断标注添加词汇,费时费力。<br/>
技术实现思路
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向继电保护的主题词识别方法,其特征在于,包括:将继电保护知识文本切分成一系列的词,对所得到的词进行筛选得到候选词;对所述候选词进行评分,基于评分从候选词中抽取主题词;对抽取的主题词进行修正,得到继电保护主题词。2.根据权利要求1所述的面向继电保护的主题词识别方法,其特征在于,所述将继电保护知识文本切分成一系列的词,包括:采用汉语语言模型N

Gram对继电保护知识文本进行切分,得到一系列字串,一个子串为一个词。3.根据权利要求1所述的面向继电保护的主题词识别方法,其特征在于,所述对所得到的词进行筛选得到候选词,包括:同时满足以下四个条件时,词为候选词:词的内凝聚度得分大于内凝聚度门槛值;词的左、右邻词信息熵大于左、右邻词信息熵门槛值;词的种子词包含大于种子词包含门槛值;词的词长大于词长门槛值。4.根据权利要求3所述的面向继电保护的主题词识别方法,其特征在于,所述词的内凝聚度得分计算如下:其中,Score
IC
(X)表示词X的内凝聚度得分,x
i
是词X中的第i个字符,P(
·
)表示词在文本中出现的概率;所述种子词包含计算为:预设短专业词作为种子词,词中包含种子词的个数为种子词包含;所述词长为词的长度。5.根据权利要求3所述的面向继电保护的主题词识别方法,其特征在于,所述内凝聚度门槛值的取值范围为50至200之间;所述左、右邻词信息熵取值为0.5;所述种子词包含门槛值取值为1;所述词长门槛值取值为2。6.根据权利要求1所述的面向继电保护的主题词识别方法,其特征在于,对所述候选词进行评分,基于评分从候选词中抽取主题词,包括:采用以下两种方式抽取主题词,并对两种方式下抽取的主题词通过加权投票的方式进行评分并排序,选取评分最高的k条候选词作为主题词;其中,方式一:计算各候选词在所在文本的TF

IDF值;对每个文本,将候选词根据TF

IDF值由高到低进行排序,选择排序最前,占比为20%的候选词作为该文本的候选主题词;将所有文本抽取的候选主题词进行汇总,作为继电保护知识文本候选主题词;方式二、计算各候选词在所在文本中的位置;
计算各候选词与上下文的相关性;计算各候选词在不同句子中出现的次数;当计算结果均超过预设阈值时,候选词为继电保护知识文本候选主题词。7.根据权利要求6所述的面向继电保护的主题词识别方法,其特征在于,所述各候选词在所在文本中的位置由候选词与所在文本开头的字符距离计算得到;所述各候选词与上下文的相关性由上下文中与候选词同时出现的不同候选词的数量表示。8.根据权利要求1所述的面向继电保护的主题词识别方法,其特征在...

【专利技术属性】
技术研发人员:陈实宋亮亮庄舒仪杨毅范栋琛孔祥平林金娇夏杰
申请(专利权)人:国网江苏省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1