构建电力词库专业词组的方法技术

技术编号:37846522 阅读:48 留言:0更新日期:2023-06-14 22:31
本发明专利技术的构建电力词库专业词组的方法包括:将记载电力专业书籍的PDF格式转变成TXT格式,然后删除其中出现的停用词;用概率的方法和信息熵的方法从电力专业书籍中提取出词组,得到电力词库的词组;将字数为10万字的人民日报的PDF格式转变成TXT格式,然后删除其中出现的停用词;用概率的方法从人民日报中提取出词组,得到日常词库;从电力词库的中删除日常词库的词组,得到电力词库的专业词组。得到电力词库的专业词组。得到电力词库的专业词组。

【技术实现步骤摘要】
构建电力词库专业词组的方法


[0001]本专利技术涉及一种基于左右信息熵优化的中文自动分词方法和一种电力专业词库构建方法。

技术介绍

[0002]电力行业是重大的基础能源体系,很多领域的发展都离不开电力,但是随着各国对能源管理方面的改革创新,对电力行业提出了向环境友好化及信息化转变的要求,因此传统电力系统需要加速向新型电力系统转变。同时,随着互联网的发展、云计算及物联网技术的应用与普及,各个领域都会产生海量数据,大数据成为推动各行各业发展强劲动力,电力系统内每时每刻也不断产生着数据,为了尽可能使电力系统运转时产生的电力数据得到高效的利用、加速传统电力系统的优化进程,应当考虑将电力行业的发展与人工智能技术结合,加强对电力人工智能技术的研究。

技术实现思路

[0003]本申请是为了解决电力行业缺乏专业中文词库,导致自然语言处理技术在电力领域应用受阻,阻碍了电力人工智能技术的发展。而提供的一种构建电力词库专业词组的方法,该专利技术研究电力领域中文文本的自动分词技术,根据电力文本的特点,选择基于左右信息熵优化的分词算法来对文本进行无监督分词,使用优化后的算法对选取的电力相关专业书籍的文本集以及人民日报文本集分别进行自动分词,对比两者得到的词表,提取出现在专业词表且不出现在非专业词表的词语作为最终提取出的专业词汇,以此构建电力相关的专业词库。
[0004]为了实现本申请的目的,本专利技术采用如下技术方案:
[0005]本专利技术的一种构建电力词库专业词组的方法,其中:它包括:
[0006](一)、文本预处理
[0007]将记载电力专业书籍的PDF格式转变成TXT格式,然后删除其中出现的停用词;
[0008](二)、从电力专业书籍中提取出词组
[0009](a)、提取二字词
[0010]在电力专业书籍中,以一句话为单位,按照一句话字的先后顺序,分别计算出选定字与相邻字同时出现在电力专业书籍中出现的概率和上述两个字分别在电力专业书籍中出现的概率;根据以下公式(1)计算出:
[0011]其中:x为选定的一个字;y为与x相邻的另一个选定的字;P(x)为上述一个字“x”在电力专业的书籍中出现的概率,P(y)为上述字“y”在电力专业的书籍中出现的概率;P(x,y)为x和y相邻两个字同时出现在电力专业书籍中出现的概率,当PMI(x,y)>0.1时,将x和y作为一个词组提取出来,加入到电力词库;
[0012](b)、提取三字词或四字词
[0013]将上述二字词组xy作为x,以二字词组xy后续的相邻字作为y,根据公式(1),计算出三字出现的概率PMI(x,y),当PMI(x,y)>0.1时,将上述三个字作为一个词组提取出来加入电力词库;重复上述步骤,提取出四个字的词组加入电力词库;
[0014](c)、用信息熵将电力词库中的二字词组、三字词组或四字词组进行扩充,至最多为七字词组
[0015]采用如下信息熵计算公式(2),
[0016]H(w)=

∑p(x
i
)logp(x
i
)
‑‑‑
公式(2),其中:w为扩充词组;H(w)为扩充词组的信息熵,p(x
i
)为扩充词组的每个字在电力专业书籍中的概率;
[0017]分别计算出上述二字词的前一个字至前五个字的信息熵、二字词的后一个字至五个字的信息熵、二字词的前一个字和后一至四个字的信息熵、二字词的前二个字和后一至三个字的信息熵、二字词的前三个字和后一至二个字的信息熵,并且找出信息熵>2的词组加入到电力词库中;
[0018]分别计算出三字词的前一个字至前四个字的信息熵、三字词的后一个字至四个字的信息熵、三字词的前一个字和后一至三个字的信息熵、三字词的前二个字和后一至二个字的信息熵、三字词的前三个字和后一个字的信息熵,并且找出信息熵>2的词组加入到电力词库中;
[0019]分别计算出四字词的前一个字至前三个字的信息熵、四字词的后一个字至三个字的信息熵、四字词的前一个字和后一至二个字的信息熵、四字词的前二个字和后一字的信息熵,并且找出信息熵>2的词组加入到电力词库中;
[0020]在上述电力词库中删除重复选择的词组;
[0021](三)、从人民日报中提取出词组
[0022]将字数为10万字的人民日报的PDF格式转变成TXT格式,然后删除其中出现的停用词;按照上述步骤(a)和步骤(b),从上述10万字的人民日报中,提取出二字词组、三字词组或四字词组组成日常词库,在上述日常词库中删除重复选择的词组;
[0023](四)、从电力词库的词组中删除日常词库的词组
[0024]从电力词库的词组中删除日常词库的词组,得到电力词库的专业词组。
[0025]本专利技术的构建电力词库专业词组的方法,其中:所述电力专业的书籍包括:《变压器检修》、《变压器设备典型故障案例汇编》、《变压器状态监测诊断技术》、《大型变压器典型故障案例分析与处理》、《变压器故障诊断与维修》和《变电站设备缺陷分类标准》中的一本或几本。
[0026]本专利技术的构建电力词库专业词组的方法,其中:所述停用词包括:虚词、数字和不具有分段落的符号。
[0027]本专利技术的构建电力词库专业词组的方法,其中:在步骤(二)中,在上述电力词库中删除重复选择的词组的方法是指删除多字词组中所包含的“二字词组”、“三字词组”、“四字词组”、“五字词组”或“六字词组”。
[0028]本专利技术的构建电力词库专业词组的方法,其特征在于:在步骤(三)中,在日常词库中删除重复选择的词组的方法是指删除“四字词组”所包含的“二字词组”或“三字词组”;删除“三字词组”所包含中的“二字词组”。
附图说明
[0029]图1为本专利技术构建电力词库专业词组方法的整体流程图。
具体实施方式
[0030]下面根据说明书附图并结合具体实施例对本专利技术的技术方案进一步详细表述。
[0031]实施例1
[0032]请参阅图1,本专利技术的构建电力词库专业词组的方法包括如下步骤:
[0033](一)、文本预处理
[0034]对《变压器检修》、《变压器设备典型故障案例汇编》、《变压器状态监测诊断技术》、《大型变压器典型故障案例分析与处理》、《变压器故障诊断与维修》、《变电站设备缺陷分类标准》这6本专业文本进行预处理,将记载电力专业书籍的PDF格式转变成TXT格式,去掉停用词,停用词包括:虚词、数字和不具有分段落的符号等,部分停用词如下表所示:
[0035]序号停用词序号停用词序号停用词序号停用词1》6:11了16a2《7“12(17b3...8”13)18%4于9;14.19

5的10!15/20\n
[0036](二)、从电力专业书籍中提取出词组
[0037](a)、提取二字词
[0038]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建电力词库专业词组的方法,其特征在于:它包括:(一)、文本预处理将记载电力专业书籍的PDF格式转变成TXT格式,然后删除其中出现的停用词;(二)、从电力专业书籍中提取出词组(a)、提取二字词在电力专业书籍中,以一句话为单位,按照一句话字的先后顺序,分别计算出选定字与相邻字同时出现在电力专业书籍中出现的概率和上述两个字分别在电力专业书籍中出现的概率;根据以下公式(1)计算出:其中:x为选定的一个字;y为与x相邻的另一个选定的字;P(x)为上述一个字“x”在电力专业的书籍中出现的概率,P(y)为上述字“y”在电力专业的书籍中出现的概率;P(x,y)为x和y相邻两个字同时出现在电力专业书籍中出现的概率,当PMI(x,y)>0.1时,将x和y作为一个词组提取出来,加入到电力词库;(b)、提取三字词或四字词将上述二字词组xy作为x,以二字词组xy后续的相邻字作为y,根据公式(1),计算出三字出现的概率PMI(x,y),当PMI(x,y)>0.1时,将上述三个字作为一个词组提取出来加入电力词库;重复上述步骤,提取出四个字的词组加入电力词库;(c)、用信息熵将电力词库中的二字词组、三字词组或四字词组进行扩充,至最多为七字词组采用如下信息熵计算公式(2),H(w)=

Σp(x
i
)logp(x
i
)
‑‑‑
公式(2),其中:w为扩充词组;H(w)为扩充词组的信息熵,p(x
i
)为扩充词组的每个字在电力专业书籍中的概率;分别计算出上述二字词的前一个字至前五个字的信息熵、二字词的后一个字至五个字的信息熵、二字词的前一个字和后一至四个字的信息熵、二字词的前二个字和后一至三个字的信息熵、二字词的前三个字和后一至二个字的信息熵,并且找出信息熵>2的词组加入到电力词库中;分别计算出三字词的...

【专利技术属性】
技术研发人员:陆万荣
申请(专利权)人:昆明能讯科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1