System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电网调度,具体涉及一种电网自然语言处理方法及电网自然语言识别系统。
技术介绍
1、现代化科技的快速发展促进着搜索引擎技术的不断进步,针对各种问题类型的搜索引擎层出不穷,但目前针对电力调度的相关专业性质更强的搜索引擎较少,造成了电力知识的利用率被严重制约。另一方面,会出现电力知识量少、效率低等问题。当前,自然语言的处理是人工智能领域研究学者们重点研究的内容之一,利用自然语言处理可以有效地实现人与计算机之间利用自然语言进行通信。
2、电力调度是探索人机协作应用的一个重要领域。一方面,电网调度中的方式安排主要依靠专业技术人员的经验人工提出方案。另一方面,调度台上对电网运行信息的采集计算、开关操作和保护定值调整等环节均已逐步实现了计算机管理和远程自动操作。在这样的背景下,开发机器调度员,实现常规停送电操作或简单事故处理的机器代人,已经成为电网企业的关注热点。这就要求计算机调度员能与运行方式、继电保护等专业的技术人员友好协作,能正确理解停电计划中的方式安排和保护调整等自然语言书写的意见文本。而这些文档涵盖的专业领域宽,既有大量专业名词和一定的规范表达要求,又保留了汉语自然语言表达的随意性,需要研究有针对性的高效的自然语言理解技术,实现对调度文本的语义解析。
3、电力数据自身具有一定复杂性与全面性,需基于计算机系统实现电力数据文本挖掘,才可充分了解电力系统用电具体情况,并预测未来趋势。
技术实现思路
1、本专利技术的目的在于克服现有技术的不足之处,提供一种
2、本专利技术的上述目的之一通过以下技术方案来实现:
3、一种电网自然语言处理方法,其特征在于:用于处理电网自然语言中非结构化语句;对于电网自然语言m个基本元素c=(c1,…,cm),定义其交互信息为:
4、
5、其中,rc为基本元素c的同时出现的频率;k∈[1,m],为基本元素下标;寻找电网自然语言的交互信息过程如下:
6、步骤1、生成主题及预处理,包括参数设置:输入最大词长度len_max,最小词频fre_min,最小交互信息in_min;
7、步骤2、对输入的电网自然语言语料预处理,包括:
8、2.1、进行统计:对于任意长度m小于len_max且大于等于2的基本元素c,统计c中每一单独元素的现概率sc,...,sm,统计c的共现频率sc,并计算交互信息εc;
9、2.2、进行粗分词:若εc>len_min则将c切为一个词,否则去掉c的最后一个元素,重新执行步骤2.1;
10、2.3、建立词典:对语料库完成步骤2.2后,统计每一个词语的词频fk,若fk>fre_min则将其选入词典。;
11、2.4将上述电网自然语言语料进行向量化转换,词语转化为长度固定的向量;
12、2.5实现词典向量化后,对每个实际调度语句,取其词向量的算术平均作为句向量,用于实现调度语句样本的聚类;
13、步骤3、加载预训练模型,对相关调度语句进行聚类训练,包括:
14、3.1每个向量化后的调度短句作为一个样本u,记样本总数为p,计算任意2个样本之间的距离,记作|u-u'|,采用欧氏距离;
15、3.2进行初始化:将每个样本视为一个聚类簇,记为ek,其中k=1,...,p,簇ek的样本数记为pi,显然此时每簇只有1个样本,簇高度为0;
16、3.3合并距离最近的2个簇ek和ei,簇ek,ei的样本数记为pk,pi,簇的个数减少1,以被合并的2个类间距作为上层的高度;同层簇之间的间距为
17、
18、3.4按照3.1至3.3,不断减少簇数,增加高度,直到簇数减少到1,即完成了聚类;
19、步骤4、生成词向量模型:
20、对同一簇中所有句子重复计算可得到一类调度句式的通用表达式:
21、
22、步骤5、计算机根据生成的词向量模型生成人可以理解的自然语言(文本)。
23、而且,步骤2.1中,len_max设置为7,fre_min设置为10,in_min设置为20。
24、而且,步骤2.4中,采用的向量维度为200维。
25、本专利技术的上述目的之二通过以下技术方案来实现:
26、一种电网自然语言识别系统,其特征在于:系统采用了微服务架构形式;系统后台划分为六个微服务模块,分别是对话代理服务模块、电网自然语言理解服务模块、对话管理服务模块、单轮问答服务模块、用户管理服务模块和知识库管理服务模块;其中对话代理服务模块、电网自然语言理解服务模块、对话管理服务模块和单轮问答服务模块采用聚合器模式设计,对话代理服务模块作为聚合器调用其余服务,用于实现对话功能;用户管理服务模块和知识库管理服务模块分别用于对用户的管理和对话系统中涉及的语料进行对等的管理;系统中每个服务模块均在服务注册与发现中心中进行注册,前后端分离,前端通过后端提供的接口进行访问;所述电网自然语言理解服务模块采用上述的电网自然语言处理方法进行电网自然语言的处理。
27、而且,所述知识库管理服务模块,用于实现多轮对话语料管理和单轮对话语料管理。
28、本专利技术具有的优点和积极效果为:
29、1、本专利技术电网自然语言处理方法通过基于有限电网自然语言样本机器学习,达到了机器提高电网自然语言的识别正确率。
30、2、本基于有限样本下电网自然语言识别系统,具有识别电网自然语言,并输出电网自然语言的功能,辅助电网运维。
本文档来自技高网...【技术保护点】
1.一种电网自然语言处理方法,其特征在于:用于处理电网自然语言中非结构化语句;对于电网自然语言m个基本元素c=(c1,…,cm),定义其交互信息为:
2.根据权利要求1所述的电网自然语言处理方法,其特征在于:步骤2.1中,将Len_max设置为7,Fre_min设置为10,In_min设置为20。
3.根据权利要求1所述的电网自然语言处理方法,其特征在于:步骤2.4中,采用的向量维度为200维。
4.一种电网自然语言识别系统,其特征在于:系统采用了微服务架构形式;系统后台划分为六个微服务模块,分别是对话代理服务模块、电网自然语言理解服务模块、对话管理服务模块、单轮问答服务模块、用户管理服务模块和知识库管理服务模块;其中对话代理服务模块、电网自然语言理解服务模块、对话管理服务模块和单轮问答服务模块采用聚合器模式设计,对话代理服务模块作为聚合器调用其余服务,用于实现对话功能;用户管理服务模块和知识库管理服务模块分别用于对用户的管理和对话系统中涉及的语料进行对等的管理;系统中每个服务模块均在服务注册与发现中心中进行注册,前后端分离,前端通过后端提供的
5.根据权利要求4所述的电网自然语言识别系统,其特征在于:所述知识库管理服务模块,用于实现多轮对话语料管理和单轮对话语料管理。
...【技术特征摘要】
1.一种电网自然语言处理方法,其特征在于:用于处理电网自然语言中非结构化语句;对于电网自然语言m个基本元素c=(c1,…,cm),定义其交互信息为:
2.根据权利要求1所述的电网自然语言处理方法,其特征在于:步骤2.1中,将len_max设置为7,fre_min设置为10,in_min设置为20。
3.根据权利要求1所述的电网自然语言处理方法,其特征在于:步骤2.4中,采用的向量维度为200维。
4.一种电网自然语言识别系统,其特征在于:系统采用了微服务架构形式;系统后台划分为六个微服务模块,分别是对话代理服务模块、电网自然语言理解服务模块、对话管理服务模块、单轮问答服务模块、用户...
【专利技术属性】
技术研发人员:任肖久,孙志国,梁程,王钰,王媛,郑晔,王晓愉,刘凤,蒋立媛,段伟润,张雪佼,万丽,唐乃馨,李琳琦,崔晋培,董雄鹰,党旭鑫,王群,虎挺昊,徐坤,尚梦楠,李海科,孙华凯,匙博恒,张少伟,杜学慧,王晨飞,朱昊,多葭宁,崔金锐,王檬,马琳琦,
申请(专利权)人:国网天津市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。