System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及四遥信息审核,具体地说,涉及一种新设备接入调控一体化四遥信息自动审核工具。
技术介绍
1、文本关键字提取是自然语言处理的一种应用,可以通过算法和模型从文本中自动提取关键字或短语;制定统一标准的四遥信息关键字判断依据,常常使用自然语言处理算法自动识别提取用户导入的点表文件,抓取关键字后通过计算机语言进行存储,后台调用关键字与判断标准比对,最终输出与标准比对正确符合规范的点表结果;但是存在一些问题,首先,对多义词的处理不准确,且对新词的处理不足,进而导致提取结果不准确。
技术实现思路
1、本专利技术的目的在于提供一种新设备接入调控一体化四遥信息自动审核工具,以解决上述
技术介绍
中提出的问题。
2、为实现上述技术问题的解决,本专利技术的目的之一在于,提供了一种新设备接入调控一体化四遥信息自动审核工具,包括:
3、四遥信息收集模块,所述四遥信息收集模块用于获取设备的遥信、遥测、遥控和遥调信号;
4、四遥信息分词模块,所述四遥信息分词模块使用双向最大匹配法对文本进行初始分词,再基于条件随机场对处理后的分词进行优化;
5、四遥信息关键字提取模块,所述四遥信息关键字提取模块先基于tf-idf算法提取候选关键字并构建带权图,基于textrank算法对带权图进行迭代更新,提取关键字;
6、关联模块,所述关联模块用于将设备信息与标准信号进行关联;
7、标准库建立模块,所述标准库建立模块用于建立统一标准的四遥信息;
>8、核对模块,所述核对模块用于比对提取的四遥信息关键字和标准的四遥关键字,并输出与标准比对正确符合规范的结果。
9、作为本技术方案的进一步改进,所述四遥信息分词模块使用双向最大匹配法时,先使用正向最大匹配法对句子进行分词,再使用逆向最大匹配法对句子进行分词,比较正向最大匹配法和逆向最大匹配法的分词结果,选择其中得分较高的一种作为最终的分词结果。
10、作为本技术方案的进一步改进,所述四遥信息分词模块使用双向最大匹配法时,双向最大匹配法中得分较高的判断方法依据匹配结果的长度和分词数量。
11、作为本技术方案的进一步改进,所述四遥信息分词模块使用条件随机场时,先对分词后的结果进行标注,同时标注词性,再构建特征函数,使用训练集来训练crf模型。
12、作为本技术方案的进一步改进,所述四遥信息关键字提取模块中基于tf-idf算法提取候选关键字时,先计算词频其中ni,j表示词条ti在文档dj中出现的次数,tfi,j表示词条ti在文档dj中出现的频率,再计算逆文档频率∣d∣表示所有文档的数量,∣j:ti∈dj∣表示包含词条ti的文档数量,最后计算tf-idf值,tf-idf=tfi,j·idfi,根据tf-idf值的大小,选择出一定数量的候选关键字。
13、作为本技术方案的进一步改进,所述四遥信息关键字提取模块中以候选关键字构建一个带权图,图中的节点表示候选关键字,边的权重表示两个关键字之间的相似度,使用n-gram模型来计算文本之间的相似度。
14、作为本技术方案的进一步改进,所述四遥信息关键字提取模块使用n-gram模型来计算单词之间的相似度时,对于两个文本分词,首先将两个文本分词各自生成n-gram序列,再计算每个n-gram序列在两个文本中出现的频率,然后计算两个文本中相同n-gram序列的频率,最后使用余弦相似度计算两个文本的相似度,余弦相似度cosθ计算公式为:
15、
16、其中,a和b表示两个文本的n-gram向量,∣a∣和∣b∣分别表示a和b的模长。
17、作为本技术方案的进一步改进,所述四遥信息关键字提取模块中基于textrank算法对带权图进行迭代更新,先初始化节点权重,再计算节点之间的相似度,接着根据节点的相似度,更新每个节点的权重,然后归一化节点权重,之后重复计算节点之间的相似度、更新节点权重和归一化节点权重,直至节点权重的变化小于阈值或达到最大迭代次数,最后将每个节点按照权重从大到小排序,并选择一定数量节点作为最终结果。
18、作为本技术方案的进一步改进,所述关联模块中设备信息包括设备名称、设备种类和设备位置。
19、作为本技术方案的进一步改进,还包括储存模块,所述储存模块用于储存标准库和提取的四遥信息关键字。
20、本专利技术的目的之二在于,提供了一种新设备接入调控一体化四遥信息自动审核装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的新设备接入调控一体化四遥信息自动审核工具的作业步骤。
21、本专利技术的目的之三在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的新设备接入调控一体化四遥信息自动审核工具的作业步骤。
22、与现有技术相比,本专利技术的有益效果:该新设备接入调控一体化四遥信息自动审核工具中,使用双向最大匹配法和条件随机场结合使用,能够很大程度上减少误分现象,还能够适应不断变化的语言环境,提高分词效果,再将tf-idf和textrank算法结合使用,且使用n-gram模型计算相似度时,捕捉文本之间的语义关联,制定的四遥信息标准更规范,判断逻辑更加宽泛和灵活。
本文档来自技高网...【技术保护点】
1.一种新设备接入调控一体化四遥信息自动审核工具,其特征在于,包括:
2.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用双向最大匹配法时,先使用正向最大匹配法对句子进行分词,再使用逆向最大匹配法对句子进行分词,比较正向最大匹配法和逆向最大匹配法的分词结果,选择其中得分较高的一种作为最终的分词结果。
3.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用双向最大匹配法时,双向最大匹配法中得分较高的判断方法依据匹配结果的长度和分词数量。
4.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用条件随机场时,先对分词后的结果进行标注,同时标注词性,再构建特征函数,使用训练集来训练CRF模型。
5.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息关键字提取模块(300)中基于TF-IDF算法提取候选关键字时,先计算词频其中ni,j
6.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息关键字提取模块(300)中以候选关键字构建一个带权图,图中的节点表示候选关键字,边的权重表示两个关键字之间的相似度,使用n-gram模型来计算文本之间的相似度。
7.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息关键字提取模块(300)使用n-gram模型来计算单词之间的相似度时,对于两个文本分词,首先将两个文本分词各自生成n-gram序列,再计算每个n-gram序列在两个文本中出现的频率,然后计算两个文本中相同n-gram序列的频率,最后使用余弦相似度计算两个文本的相似度,余弦相似度cosθ计算公式为:
8.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息关键字提取模块(300)中基于TextRank算法对带权图进行迭代更新,先初始化节点权重,再计算节点之间的相似度,接着根据节点的相似度,更新每个节点的权重,然后归一化节点权重,之后重复计算节点之间的相似度、更新节点权重和归一化节点权重,直至节点权重的变化小于阈值或达到最大迭代次数,最后将每个节点按照权重从大到小排序,并选择一定数量节点作为最终结果。
9.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述关联模块(400)中设备信息包括设备名称、设备种类和设备位置。
10.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:还包括储存模块(700),所述储存模块(700)用于储存标准库和提取的四遥信息关键字。
...【技术特征摘要】
1.一种新设备接入调控一体化四遥信息自动审核工具,其特征在于,包括:
2.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用双向最大匹配法时,先使用正向最大匹配法对句子进行分词,再使用逆向最大匹配法对句子进行分词,比较正向最大匹配法和逆向最大匹配法的分词结果,选择其中得分较高的一种作为最终的分词结果。
3.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用双向最大匹配法时,双向最大匹配法中得分较高的判断方法依据匹配结果的长度和分词数量。
4.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息分词模块(200)使用条件随机场时,先对分词后的结果进行标注,同时标注词性,再构建特征函数,使用训练集来训练crf模型。
5.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于:所述四遥信息关键字提取模块(300)中基于tf-idf算法提取候选关键字时,先计算词频其中ni,j表示词条ti在文档dj中出现的次数,tfi,j表示词条ti在文档dj中出现的频率,再计算逆文档频率∣d∣表示所有文档的数量,∣j:ti∈dj∣表示包含词条ti的文档数量,最后计算tf-idf值,tf-idf=tfi,j·idfi,根据tf-idf值的大小,选择出一定数量的候选关键字。
6.根据权利要求1所述的新设备接入调控一体化四遥信息自动审核工具,其特征在于...
【专利技术属性】
技术研发人员:袁伟,龚玉辛,叶小虎,赵玉凯,李杨,飞宏顺,孙拓,
申请(专利权)人:云南电网有限责任公司玉溪供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。