基于改进Jieba分词的配电网检修文本信息提取方法技术

技术编号:32117311 阅读:22 留言:0更新日期:2022-01-29 19:02
本发明专利技术涉及一种基于改进Jieba分词的配电网检修文本信息提取方法,包括以下步骤:步骤1、分析配电网巡检文本特征;步骤2、对配电网巡检文本进行清洗;步骤3、形成电力巡检文本关键词表;步骤4、利用TF

【技术实现步骤摘要】
基于改进Jieba分词的配电网检修文本信息提取方法


[0001]本专利技术属于自然语言处理在电力系统应用
,涉及配电网运维检修文本信息提取方法,尤其是一种基于改进Jieba分词的配电网检修文本信息提取方法。

技术介绍

[0002]随着信息化的快速发展,电网企业各业务积累的数据量越来越大。在配电网的检修环节,积累了大量的原始数据,以文本的形式保存,包含检修记录、试验记录,巡检记录等信息,蕴含着丰富的电力信息,对指导运维检修工作有着重要的意义。文本处理是文本分析理解的基础,处理结果可以直接影响到文本分析的准确率。词是构成语句的基本单元,分析语句前需要先分词,将文本中词切分出来作为特征值。对于英文而言,分词相对比较简单,因为英文语句中词与词之间有明显的分隔符。中文语句结构复杂,词语之间没有分隔符,而且同一个词在不同的语句和不同的文本中意义不同。配电网巡检文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本处理的基础,词的切分准确性影响文本处理结果,然而,由于中文文本半结构化数据的复杂性,大量的电力文本无法直接用于智能分析的学习过程。
[0003]Jieba中文分词是一款广泛使用的分词工具,基于Python的第三方分词库。由于电力领域的特定性,直接使用Jieba分词电力词汇得到的结果无法满足电力文本分词的需要,极易出现关键词被拆分或部分词汇合并的情况,影响了文本预处理的精确度。
[0004]因此,如何当前结合电力文本特点,对Jieba分词工具进行改进,实现配电网巡检记录文本的信息挖掘技术研究十分重要和迫切。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提出一种基于改进Jieba分词的配电网检修文本信息提取方法,能够根据配电网检修记录文本数据特点,利用TF

IDF算法识别电力领域专有词汇,完善Jieba词库,进而实现配电网巡检记录的文本有效分词。
[0006]本专利技术解决其现实问题是采取以下技术方案实现的:
[0007]一种基于改进Jieba分词的配电网检修文本信息提取方法,括以下步骤:
[0008]步骤1、分析配电网巡检文本特征;
[0009]步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;
[0010]步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用Jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。
[0011]步骤4、针对配电网巡检文本,利用TF

IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;
[0012]步骤5、将步骤4中利用TF

IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新。
[0013]而且,所述步骤1的配电网巡检文本特征包括:
[0014](1)巡检文本结构不一致;
[0015](2)巡检文本长度有差别;
[0016](3)巡检文本包含特殊意义字符;
[0017](4)巡检文本部分词汇重复度高。
[0018]而且,所述步骤2的具体步骤包括:
[0019](1)删除重复记录,减少不同人员书写习惯不同造成的差异;
[0020](2)删除空白记录,缩小部分文本的无效长度;
[0021](3)删除文本中含有的标点符号;
[0022](4)删除无意义词汇;
[0023]而且,所述步骤3的具体步骤包括:
[0024](1)通过Jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;
[0025](2)对比原始的文本,提取出错分的词,构造成关键词表;
[0026](3)对分词文本进行数值上的统计;
[0027](4)最后,将统计得到的高频词加入到关键词表中,通过Jieba分词,建立电力巡检文本关键词表。
[0028]而且,所述步骤4的具体步骤包括:
[0029](1)计算TF
[0030]TF表示某个电力词汇在整篇文章中出现的概率,其计算公式为:
[0031][0032]其中,n
ij
为配电网巡检特征词在文中出现的次数,∑
k
n
kj
则是文本中所有特征词的个数;TF
ij
计算的结果即为某个电力特征词的词频;
[0033](2)计算IDF
[0034]IDF表示逆向文本频率,其计算公式为:
[0035][0036]其中,N表示语料库中全部文章的数量,1+N
power
表示文章中具有明显特征的词语power的数量,为防止该词语在语料库中不存在,即分母为0,使用1+N
power
作为分母,IDF
ij
表示逆向文本频率。
[0037](3)计算TF

IDF
[0038]其计算公式为:
[0039]TF

IDF
ij
=TF
ij
·
IDF
ij (3)
[0040]TF

IDF的值是由词频TF
ij
和逆向文本词频IDF
ij
的乘积得到的,TF

IDF的值越大,表示该电力特征词对这个文本的重要性越大。
[0041](4)利用TF

IDF算法进行关键词提取后,形成完善后的电力巡检文本关键词表,并完善Jieba词库,提高Jieba词典在电力领域的分词能力。
[0042]而且,所述步骤5的具体步骤包括:
[0043](1)Jieba分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词
情况所构成的有向无环图;
[0044](2)采用动态规划查找语料库与关键词表的最大概率路径,找出基于词频的最大切分组合。
[0045](3)通过更新后的词表,重新使用Jieba进行分词,保证词表中的词都能被正确分类,提高针对电力词汇的识别切分准确率。
[0046]而且,在所述步骤5之后还包括如下步骤:
[0047]在完成步骤5的关键词表与停用词表的更新后,重新使用Jieba进行分词,加入关键词表,保证词表中的词都能被正确分类,并不断迭代,进行2~3次关键词表与停用词表的更新。
[0048]本专利技术的优点和有益效果:
[0049]本专利技术基于Jieba分词工具,对配电网检修记录文本预处理技术进行研究,提出利用TF

IDF算法,进行电力特定领域词语识别,并将识别到的电力词语加入Jieba词库,改进Jieba分词工具,使用了领域的停用词表和关键词表,更多重要的词被保留,在构造文本特征的时候,与直接分词相比保留了更多的特征,实现配电网巡检记录的文本有效分词。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:包括以下步骤:步骤1、分析配电网巡检文本特征;步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用Jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。步骤4、针对配电网巡检文本,利用TF

IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;步骤5、将步骤4中利用TF

IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新。2.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤1的配电网巡检文本特征包括:(1)巡检文本结构不一致;(2)巡检文本长度有差别;(3)巡检文本包含特殊意义字符;(4)巡检文本部分词汇重复度高。3.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤2的具体步骤包括:(1)删除重复记录,减少不同人员书写习惯不同造成的差异;(2)删除空白记录,缩小部分文本的无效长度;(3)删除文本中含有的标点符号;(4)删除无意义词汇。4.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤3的具体步骤包括:(1)通过Jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;(2)对比原始的文本,提取出错分的词,构造成关键词表;(3)对分词文本进行数值上的统计;(4)最后,将统计得到的高频词加入到关键词表中,通过Jieba分词,建立电力巡检文本关键词表。5.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤4的具体步骤包括:(1)计算TFTF表示某个电力词汇在整篇文章中出现的概率,其计算公式为:其中,n
ij
为配电网巡检特征词在文中出现的次数,∑
k
n
kj
则是文本中所有特征词的个数;TF

【专利技术属性】
技术研发人员:丁一张磐滕飞霍现旭戚艳杨挺尚学军陈沛焦秋良孙峤吴磊
申请(专利权)人:国网天津市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1