基于改进Jieba分词的配电网检修文本信息提取方法技术

技术编号：32117311 阅读：22 留言：0更新日期：2022-01-29 19:02

本发明专利技术涉及一种基于改进Jieba分词的配电网检修文本信息提取方法，包括以下步骤：步骤1、分析配电网巡检文本特征；步骤2、对配电网巡检文本进行清洗；步骤3、形成电力巡检文本关键词表；步骤4、利用TF

全部详细技术资料下载

【技术实现步骤摘要】
基于改进Jieba分词的配电网检修文本信息提取方法

[0001]本专利技术属于自然语言处理在电力系统应用
，涉及配电网运维检修文本信息提取方法，尤其是一种基于改进Jieba分词的配电网检修文本信息提取方法。

技术介绍

[0002]随着信息化的快速发展，电网企业各业务积累的数据量越来越大。在配电网的检修环节，积累了大量的原始数据，以文本的形式保存，包含检修记录、试验记录，巡检记录等信息，蕴含着丰富的电力信息，对指导运维检修工作有着重要的意义。文本处理是文本分析理解的基础，处理结果可以直接影响到文本分析的准确率。词是构成语句的基本单元，分析语句前需要先分词，将文本中词切分出来作为特征值。对于英文而言，分词相对比较简单，因为英文语句中词与词之间有明显的分隔符。中文语句结构复杂，词语之间没有分隔符，而且同一个词在不同的语句和不同的文本中意义不同。配电网巡检文本语句结构复杂，词语之间没有明显的分隔标记，需要进行分词来理解语句。分词是文本处理的基础，词的切分准确性影响文本处理结果，然而，由于中文文本半结构化数据的复杂性，大量的电力文本无法直接用于智能分析的学习过程。
[0003]Jieba中文分词是一款广泛使用的分词工具，基于Python的第三方分词库。由于电力领域的特定性，直接使用Jieba分词电力词汇得到的结果无法满足电力文本分词的需要，极易出现关键词被拆分或部分词汇合并的情况，影响了文本预处理的精确度。
[0004]因此，如何当前结合电力文本特点，对Jieba分词工具进行改进，实现配电网巡检记录文本的...

【技术保护点】

【技术特征摘要】
1.一种基于改进Jieba分词的配电网检修文本信息提取方法，其特征在于：包括以下步骤：步骤1、分析配电网巡检文本特征；步骤2、根据步骤1的配电网巡检文本特征，对配电网巡检文本进行清洗；步骤3、基于所述步骤2数据清洗之后的配电网巡检文本，利用Jieba分词工具进行一次分词，统计词频并形成电力巡检文本关键词表。步骤4、针对配电网巡检文本，利用TF
‑
IDF算法对步骤3所形成的电力巡检文本关键词表进行完善；步骤5、将步骤4中利用TF
‑
IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典，完成Jieba词典中关键词表与停用词表的更新。2.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法，其特征在于：所述步骤1的配电网巡检文本特征包括：(1)巡检文本结构不一致；(2)巡检文本长度有差别；(3)巡检文本包含特殊意义字符；(4)巡检文本部分词汇重复度高。3.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法，其特征在于：所述步骤2的具体步骤包括：(1)删除重复记录，减少不同人员书写习惯不同造成的差异；(2)删除空白记录，缩小部分文本的无效长度；(3)删除文本中含有的标点符号；(4)删除无意义词汇。4.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法，其特征在于：所述步骤3的具体步骤包括：(1)通过Jieba一次分词，抽样出部分原始文本与其分词数据，观察识别分词结果；(2)对比原始的文本，提取出错分的词，构造成关键词表；(3)对分词文本进行数值上的统计；(4)最后，将统计得到的高频词加入到关键词表中，通过Jieba分词，建立电力巡检文本关键词表。5.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法，其特征在于：所述步骤4的具体步骤包括：(1)计算TFTF表示某个电力词汇在整篇文章中出现的概率，其计算公式为：其中，n
ij
为配电网巡检特征词在文中出现的次数，∑
k
n
kj
则是文本中所有特征词的个数；TF

【专利技术属性】
技术研发人员：丁一，张磐，滕飞，霍现旭，戚艳，杨挺，尚学军，陈沛，焦秋良，孙峤，吴磊，
申请(专利权)人：国网天津市电力公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人