用于分布式储能领域的挖掘新词的方法及其装置制造方法及图纸

技术编号:32465013 阅读:11 留言:0更新日期:2022-02-26 09:01
本发明专利技术公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤:将预处理句子切割为的多个个第一待处理文字段,将多个第一待处理文字段归结为多个个不同的第二待处理文字段,计算每个第二待处理文字段的度量值,当度量值≥第一预设阀值且的数量≥第二预设阀值时,第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。从而创建词库。从而创建词库。

【技术实现步骤摘要】
用于分布式储能领域的挖掘新词的方法及其装置


[0001]本专利技术涉及新能源
,尤其涉及一种用于分布式储能领域的挖掘新词的方法及其装置。

技术介绍

[0002]为了阻止全球气候变暖的进一步加剧,需要进一步减少传统化石能源的使用,就需要使用其他能源来替代化石能源,其中,电能(例如,风能发电,太阳能发电等)是一个非常好的选择,但这些电能的供给不稳定(例如,晴天,太阳能发电能够提供充足的电能甚至超过电力需求,但晚上却没有;有风的时候,风能发电能够提供充足的电能甚至超过电力需求,但没风的时候,却没有),于是,就需要设置有分布式储能系统(储能系统设置于风力发电厂,太阳能发电厂周围),从而能够达到削峰填谷的作用。
[0003]此外,随着人工智能的发展,就为电力领域提供智能客户、语音识别等服务提供了可能,可以理解的是,为了训练神经网络,需要构建词库(例如,需要构建分布式储能领域的词库)。
[0004]因此,如果创建分布式储能领域的词库,就成为一个亟待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术的主要目的在于提供一种用于分布式储能领域的挖掘新词的方法及其装置。
[0006]为了实现上述专利技术目的之一,本专利技术一实施方式提供一种用于分布式储能领域的挖掘新词的方法,包括以下步骤:获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,W
M
,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(W
M
),其中,M 为自然数,M≤Num,i=1,2,...,M;对每个第二待处理文字段W
i
均进行以下处理:其中,j为自然数,且1≤j≤M,i≠j,当C
i
≥第一预设阀值且 W
i
的数量≥第二预设阀值时,第二待处理文字段W
i
为新词,其中,第一、第二预设阀值均大于0。
[0007]作为本专利技术实施例的一种改进,Lmin=2,LMax=30。
[0008]作为本专利技术实施例的一种改进,第一预设阀值=20,第二预设阀值=100。
[0009]作为本专利技术实施例的一种改进,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文
字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
[0010]作为本专利技术实施例的一种改进,所述“获取不包含有标点符号的预处理句子”具体包括:使用标点符号将文章段落被分割得到所述预处理句子。
[0011]本专利技术实施例还提供了一种用于分布式储能领域的挖掘新词的装置,包括以下模块:句子获取模块,用于获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;句子划分模块,用于将Num 个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,W
M
,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(W
M
),其中,M为自然数,M≤Num,i=1,2,...,M;处理模块,用于对每个第二待处理文字段W
i
均进行以下处理:其中,j为自然数,且1≤j≤M,i≠j,当C
i
≥第一预设阀值且 W
i
的数量≥第二预设阀值时,第二待处理文字段W
i
为新词,其中,第一、第二预设阀值均大于0。
[0012]作为本专利技术实施例的一种改进,Lmin=2,LMax=30。
[0013]作为本专利技术实施例的一种改进,第一预设阀值=20,第二预设阀值=100。
[0014]作为本专利技术实施例的一种改进,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
[0015]作为本专利技术实施例的一种改进,所述句子获取模块还用于:使用标点符号将文章段落被分割得到所述预处理句子。
[0016]相对于现有技术,本专利技术的技术效果在于:本专利技术实施例公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤:将预处理句子切割为的多个个第一待处理文字段,将多个第一待处理文字段归结为多个个不同的第二待处理文字段,计算每个第二待处理文字段的度量值,当度量值≥第一预设阀值且的数量≥第二预设阀值时,第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。
附图说明
[0017]图1为本专利技术实施例提供的挖掘新词的方法的流程示意图。
具体实施方式
[0018]以下将结合附图所示的实施方式对本专利技术进行详细描述。但该实施方式并不限制本专利技术,本领域的普通技术人员根据该实施方式所做出的结构、方法、或功能上的变换均包
含在本专利技术的保护范围内。
[0019]以下描述和附图充分地示出本文的具体实施方案,以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。本文中,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来,而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素,反之亦然。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0020]本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本文和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本文的描述中,除非另有规定和限定,术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于分布式储能领域的挖掘新词的方法,其特征在于,包括以下步骤:获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,W
M
,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(W
M
),其中,M为自然数,M≤Num,i=1,2,...,M;对每个第二待处理文字段W
i
均进行以下处理:其中,j为自然数,且1≤j≤M,i≠j,当C
i
≥第一预设阀值且W
i
的数量≥第二预设阀值时,第二待处理文字段W
i
为新词,其中,第一、第二预设阀值均大于0。2.根据权利要求1所述的挖掘新词的方法,其特征在于:Lmin=2,LMax=30。3.根据权利要求1所述的挖掘新词的方法,其特征在于:第一预设阀值=20,第二预设阀值=100。4.根据权利要求1所述的挖掘新词的方法,其特征在于:第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。5.根据权利要求1所述的挖掘新词的方法,其特征在于,所述“获取不包含有标点符号的预处理句子”具体包括:使用标点符号将文章段落被分割得到所述预处理句子。6.一种用于分布式储能领域的挖掘新...

【专利技术属性】
技术研发人员:司修利江思伟袁宏亮王珺顾强朱嵩华
申请(专利权)人:沃太能源股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1