用于分布式储能领域的挖掘新词的方法及其装置制造方法及图纸

技术编号：32465013 阅读：11 留言：0更新日期：2022-02-26 09:01

本发明专利技术公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤：将预处理句子切割为的多个个第一待处理文字段，将多个第一待处理文字段归结为多个个不同的第二待处理文字段，计算每个第二待处理文字段的度量值，当度量值≥第一预设阀值且的数量≥第二预设阀值时，第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。从而创建词库。从而创建词库。

全部详细技术资料下载

【技术实现步骤摘要】
用于分布式储能领域的挖掘新词的方法及其装置

[0001]本专利技术涉及新能源
，尤其涉及一种用于分布式储能领域的挖掘新词的方法及其装置。

技术介绍

[0002]为了阻止全球气候变暖的进一步加剧，需要进一步减少传统化石能源的使用，就需要使用其他能源来替代化石能源，其中，电能(例如，风能发电，太阳能发电等)是一个非常好的选择，但这些电能的供给不稳定(例如，晴天，太阳能发电能够提供充足的电能甚至超过电力需求，但晚上却没有；有风的时候，风能发电能够提供充足的电能甚至超过电力需求，但没风的时候，却没有)，于是，就需要设置有分布式储能系统(储能系统设置于风力发电厂，太阳能发电厂周围)，从而能够达到削峰填谷的作用。
[0003]此外，随着人工智能的发展，就为电力领域提供智能客户、语音识别等服务提供了可能，可以理解的是，为了训练神经网络，需要构建词库(例如，需要构建分布式储能领域的词库)。
[0004]因此，如果创建分布式储能领域的词库，就成为一个亟待解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术的主要目的在于提供一种用于分布式储能领域的挖掘新词的方法及其装置。
[0006]为了实现上述专利技术目的之一，本专利技术一实施方式提供一种用于分布式储能领域的挖掘新词的方法，包括以下步骤：获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其...

【技术保护点】

【技术特征摘要】
1.一种用于分布式储能领域的挖掘新词的方法，其特征在于，包括以下步骤：获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中，Num、Lmin和LMax均为自然数；将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1，W2，...，W
M
，以及每个第二待处理文字段出现的概率P(W1)，P(W2)，...，P(W
M
)，其中，M为自然数，M≤Num，i＝1，2，...，M；对每个第二待处理文字段W
i
均进行以下处理：其中，j为自然数，且1≤j≤M，i≠j，当C
i
≥第一预设阀值且W
i
的数量≥第二预设阀值时，第二待处理文字段W
i
为新词，其中，第一、第二预设阀值均大于0。2.根据权利要求1所述的挖掘新词的方法，其特征在于：Lmin＝2，LMax＝30。3.根据权利要求1所述的挖掘新词的方法，其特征在于：第一预设阀值＝20，第二预设阀值＝100。4.根据权利要求1所述的挖掘新词的方法，其特征在于：第一待处理文字段的长度＝第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量，如果第一待处理文字段不包含汉字时，则第一数量＝0，如果第二待处理文字段不包含字母时，则第二数量＝0。5.根据权利要求1所述的挖掘新词的方法，其特征在于，所述“获取不包含有标点符号的预处理句子”具体包括：使用标点符号将文章段落被分割得到所述预处理句子。6.一种用于分布式储能领域的挖掘新...

【专利技术属性】
技术研发人员：司修利，江思伟，袁宏亮，王珺，顾强，朱嵩华，
申请(专利权)人：沃太能源股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人