【技术实现步骤摘要】
基于改进Jieba分词的配电网检修文本信息提取方法
[0001]本专利技术属于自然语言处理在电力系统应用
,涉及配电网运维检修文本信息提取方法,尤其是一种基于改进Jieba分词的配电网检修文本信息提取方法。
技术介绍
[0002]随着信息化的快速发展,电网企业各业务积累的数据量越来越大。在配电网的检修环节,积累了大量的原始数据,以文本的形式保存,包含检修记录、试验记录,巡检记录等信息,蕴含着丰富的电力信息,对指导运维检修工作有着重要的意义。文本处理是文本分析理解的基础,处理结果可以直接影响到文本分析的准确率。词是构成语句的基本单元,分析语句前需要先分词,将文本中词切分出来作为特征值。对于英文而言,分词相对比较简单,因为英文语句中词与词之间有明显的分隔符。中文语句结构复杂,词语之间没有分隔符,而且同一个词在不同的语句和不同的文本中意义不同。配电网巡检文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本处理的基础,词的切分准确性影响文本处理结果,然而,由于中文文本半结构化数据的复杂性,大量的电力文本无法直接用于智能分析的学习过程。
[0003]Jieba中文分词是一款广泛使用的分词工具,基于Python的第三方分词库。由于电力领域的特定性,直接使用Jieba分词电力词汇得到的结果无法满足电力文本分词的需要,极易出现关键词被拆分或部分词汇合并的情况,影响了文本预处理的精确度。
[0004]因此,如何当前结合电力文本特点,对Jieba分词工具进行改进,实现配电网巡检记录文本的 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:包括以下步骤:步骤1、分析配电网巡检文本特征;步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用Jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。步骤4、针对配电网巡检文本,利用TF
‑
IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;步骤5、将步骤4中利用TF
‑
IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新。2.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤1的配电网巡检文本特征包括:(1)巡检文本结构不一致;(2)巡检文本长度有差别;(3)巡检文本包含特殊意义字符;(4)巡检文本部分词汇重复度高。3.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤2的具体步骤包括:(1)删除重复记录,减少不同人员书写习惯不同造成的差异;(2)删除空白记录,缩小部分文本的无效长度;(3)删除文本中含有的标点符号;(4)删除无意义词汇。4.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤3的具体步骤包括:(1)通过Jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;(2)对比原始的文本,提取出错分的词,构造成关键词表;(3)对分词文本进行数值上的统计;(4)最后,将统计得到的高频词加入到关键词表中,通过Jieba分词,建立电力巡检文本关键词表。5.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤4的具体步骤包括:(1)计算TFTF表示某个电力词汇在整篇文章中出现的概率,其计算公式为:其中,n
ij
为配电网巡检特征词在文中出现的次数,∑
k
n
kj
则是文本中所有特征词的个数;TF
技术研发人员:丁一,张磐,滕飞,霍现旭,戚艳,杨挺,尚学军,陈沛,焦秋良,孙峤,吴磊,
申请(专利权)人:国网天津市电力公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。