一种联合循环机组的经济性数据关系构建方法及系统技术方案

技术编号:38889070 阅读:14 留言:0更新日期:2023-09-22 14:15
本发明专利技术涉及数据处理技术领域,公开了一种联合循环机组的经济性数据关系构建方法及系统,获取机组产生的待检测文本和参考文本,并基于预设分类规则对待检测文本和参考文本进行分类,判断待检测文本和参考文本是否为关联文本信息,当待检测文本和参考文本为关联文本信息时,对待检测文本和参考文本进行分词处理,确定待检测文本的第一词汇集合和参考文本的第二词汇集合,根据第一词汇集合和第二词汇集合计算待检测文本和参考文本之间的相似度,基于相似度对待检测文本和参考文本生成强文本关联标识或弱文本关联标识,本发明专利技术解决了无法构建待检测文本和参考文本之间的文本数据关联的技术问题,提高了文本数据的分析和处理效率。效率。效率。

【技术实现步骤摘要】
一种联合循环机组的经济性数据关系构建方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种联合循环机组的经济性数据关系构建方法及系统。

技术介绍

[0002]随着云计算和大数据的不断发展,互联网中数据交互和存储也越来越大,不论是从量级还是种类方面,都是一个庞大的数据,数据中的价值也越来越多样化和深度化,在对这些庞大的数据进行分析和处理的时候,将面临严峻的考验。关联规则挖掘是数据挖掘技术中一个非常重要的研究方向,借助它可以从海量的数据中发现数据项之间的关联关系,而某些关联关系可以辅助企业制定相关的决策。
[0003]当前的文本数据关系构建方式是根据不同的逻辑关系将获取的文本数据进行关联,以使文本数据形成多个不同的关联系统,每个关联系统所对应的系统数据用于在检测到输入与当前关联系统的逻辑关系对应的关键字时提供给输入操作者,但是这种文本数据关联方式由于不同层次关系上,不同的需求方需求不同,且每个时间段也会有不同,如果在数据组织和结构上稍微进行了修改,将导致整体进行对应更改。因此,现有的文本数据关系构建方式通用性不高,适配性差,难以满足现代化大数据需求。

技术实现思路

[0004]本专利技术实施例提供一种联合循环机组的经济性数据关系构建方法及系统,用以解决现有技术中无法构建待检测文本和参考文本之间的文本数据关联,无法提高文本数据分析和处理效率的技术问题。
[0005]为了实现上述目的,本专利技术提供了一种联合循环机组的经济性数据关系构建方法,所述方法包括:
[0006]获取机组产生的待检测文本和参考文本,并基于预设分类规则对所述待检测文本和所述参考文本进行分类,判断所述待检测文本和所述参考文本是否为关联文本信息;
[0007]当所述待检测文本和所述参考文本为关联文本信息时,基于大粒度分词规则分别对所述待检测文本和所述参考文本进行分词处理,并确定所述待检测文本的第一词汇集合和所述参考文本的第二词汇集合;
[0008]根据所述第一词汇集合和所述第二词汇集合计算所述待检测文本和所述参考文本之间的相似度;
[0009]基于所述相似度对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识。
[0010]在其中一个实施例中,在基于预设分类规则对所述待检测文本和所述参考文本进行分类,判断所述待检测文本和所述参考文本是否为关联文本信息时,包括:
[0011]分别对所述待检测文本和所述参考文本进行文本分析,分别确定所述待检测文本和所述参考文本的文本类型以及文本要素;
[0012]当所述待检测文本的文本类型和所述参考文本的文本类型相同时,则对所述待检测文本和所述参考文本生成可能关联标识,
[0013]基于所述可能关联标识判断所述待检测文本的文本要素和所述参考文本的文本要素是否相同,
[0014]若是,则确定所述待检测文本和所述参考文本为所述关联文本信息;
[0015]若否,则确定所述待检测文本和所述参考文本为非关联文本信息;
[0016]当所述待检测文本的文本类型和所述参考文本的文本类型不相同时,则对所述待检测文本和所述参考文本生成不可能关联标识。
[0017]在其中一个实施例中,在根据所述第一词汇集合和所述第二词汇集合计算所述待检测文本和所述参考文本之间的相似度时,包括:
[0018]分别删除所述第一词汇集合和所述第二词汇集合中的公知词,得到第三词汇集合和第四词汇集合;
[0019]分别确定所述第三词汇集合和所述第四词汇集合中的高频词,基于所述高频词确定第五词汇集合和第六词汇集合;
[0020]分别对所述第五词汇集合和所述第六词汇集合进行文本分析,确定所述第五词汇集合和所述第六词汇集合的相似词;
[0021]计算所述相似词在所述第五词汇集合中的第一影响因子,计算所述相似词在所述第六词汇集合中的第二影响因子;
[0022]获取所述相似词在所述第五词汇集合中的第一隶属度,获取所述相似词在所述第六词汇集合中的第二隶属度;
[0023]根据所述第一隶属度设定第一修正因子,基于所述第一修正因子对所述第一影响因子进行修正,并得到第三影响因子;
[0024]根据所述第二隶属度设定第二修正因子,基于所述第二修正因子对所述第二影响因子进行修正,并得到第四影响因子;
[0025]根据所述第三影响因子和所述第四影响因子计算所述待检测文本和所述参考文本之间的相似度。
[0026]在其中一个实施例中,根据下式计算所述待检测文本和所述参考文本的相似度:
[0027][0028]其中,R为待检测文本和参考文本的相似度,M
i
为第三影响因子,N
i
为第四影响因子,n为第五词汇集合中的分词个数,s为第六词汇集合中的分词个数。
[0029]在其中一个实施例中,在基于所述相似度对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识时,包括:
[0030]根据所述待检测文本和所述参考文本的相似度与预设相似度之间的关系对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识,
[0031]当所述待检测文本和所述参考文本的相似度大于所述预设相似度时,则对所述待检测文本和所述参考文本生成强文本关联标识;
[0032]当所述待检测文本和所述参考文本的相似度小于或等于所述预设相似度时,则对所述待检测文本和所述参考文本生成弱文本关联标识。
[0033]为了实现上述目的,本专利技术提供了一种联合循环机组的经济性数据关系构建系统,所述系统包括:
[0034]判断模块,用于获取机组产生的待检测文本和参考文本,并基于预设分类规则对所述待检测文本和所述参考文本进行分类,判断所述待检测文本和所述参考文本是否为关联文本信息;
[0035]确定模块,用于当所述待检测文本和所述参考文本为关联文本信息时,基于大粒度分词规则分别对所述待检测文本和所述参考文本进行分词处理,并确定所述待检测文本的第一词汇集合和所述参考文本的第二词汇集合;
[0036]计算模块,用于根据所述第一词汇集合和所述第二词汇集合计算所述待检测文本和所述参考文本之间的相似度;
[0037]生成模块,用于基于所述相似度对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识。
[0038]在其中一个实施例中,所述判断模块具体用于:
[0039]所述判断模块用于分别对所述待检测文本和所述参考文本进行文本分析,分别确定所述待检测文本和所述参考文本的文本类型以及文本要素;
[0040]所述判断模块用于当所述待检测文本的文本类型和所述参考文本的文本类型相同时,则对所述待检测文本和所述参考文本生成可能关联标识,
[0041]所述判断模块用于基于所述可能关联标识判断所述待检测文本的文本要素和所述参考文本的文本要素是否相同,
[0042]若是,则确定所述待检测文本和所述参考文本为所述关联文本信息;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合循环机组的经济性数据关系构建方法,其特征在于,所述方法包括:获取机组产生的待检测文本和参考文本,并基于预设分类规则对所述待检测文本和所述参考文本进行分类,判断所述待检测文本和所述参考文本是否为关联文本信息;当所述待检测文本和所述参考文本为关联文本信息时,基于大粒度分词规则分别对所述待检测文本和所述参考文本进行分词处理,并确定所述待检测文本的第一词汇集合和所述参考文本的第二词汇集合;根据所述第一词汇集合和所述第二词汇集合计算所述待检测文本和所述参考文本之间的相似度;基于所述相似度对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识。2.根据权利要求1所述的联合循环机组的经济性数据关系构建方法,其特征在于,在基于预设分类规则对所述待检测文本和所述参考文本进行分类,判断所述待检测文本和所述参考文本是否为关联文本信息时,包括:分别对所述待检测文本和所述参考文本进行文本分析,分别确定所述待检测文本和所述参考文本的文本类型以及文本要素;当所述待检测文本的文本类型和所述参考文本的文本类型相同时,则对所述待检测文本和所述参考文本生成可能关联标识,基于所述可能关联标识判断所述待检测文本的文本要素和所述参考文本的文本要素是否相同,若是,则确定所述待检测文本和所述参考文本为所述关联文本信息;若否,则确定所述待检测文本和所述参考文本为非关联文本信息;当所述待检测文本的文本类型和所述参考文本的文本类型不相同时,则对所述待检测文本和所述参考文本生成不可能关联标识。3.根据权利要求1所述的联合循环机组的经济性数据关系构建方法,其特征在于,在根据所述第一词汇集合和所述第二词汇集合计算所述待检测文本和所述参考文本之间的相似度时,包括:分别删除所述第一词汇集合和所述第二词汇集合中的公知词,得到第三词汇集合和第四词汇集合;分别确定所述第三词汇集合和所述第四词汇集合中的高频词,基于所述高频词确定第五词汇集合和第六词汇集合;分别对所述第五词汇集合和所述第六词汇集合进行文本分析,确定所述第五词汇集合和所述第六词汇集合的相似词;计算所述相似词在所述第五词汇集合中的第一影响因子,计算所述相似词在所述第六词汇集合中的第二影响因子;获取所述相似词在所述第五词汇集合中的第一隶属度,获取所述相似词在所述第六词汇集合中的第二隶属度;根据所述第一隶属度设定第一修正因子,基于所述第一修正因子对所述第一影响因子进行修正,并得到第三影响因子;根据所述第二隶属度设定第二修正因子,基于所述第二修正因子对所述第二影响因子
进行修正,并得到第四影响因子;根据所述第三影响因子和所述第四影响因子计算所述待检测文本和所述参考文本之间的相似度。4.根据权利要求3所述的联合循环机组的经济性数据关系构建方法,其特征在于,根据下式计算所述待检测文本和所述参考文本的相似度:其中,R为待检测文本和参考文本的相似度,M
i
为第三影响因子,N
i
为第四影响因子,n为第五词汇集合中的分词个数,s为第六词汇集合中的分词个数。5.根据权利要求1所述的联合循环机组的经济性数据关系构建方法,其特征在于,在基于所述相似度对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识时,包括:根据所述待检测文本和所述参考文本的相似度与预设相似度之间的关系对所述待检测文本和所述参考文本生成强文本关联标识或弱文本关联标识,当所述待检测文本和所述参考文本的相似度大于所述预设相似度时,则对所述待检测文本和所述参考文本生成强文本关联标识;当所述待检测文本和所述参考文本的相似度小于或等于所述预设相似度时,则对所述待检测文本和所述参考文本生成弱文本关联标识。6.一种联合循环机组的经济性数据关系构建系统,其特征在于...

【专利技术属性】
技术研发人员:邱致猛邹东赵作让刘海波宋厅韩宏孝郝云生何杰王锐谢运明钟冰王国楷陈超庞宏伟钟明泽杨兴业陈果陈俊伯史冬冬范嘉晟林子杨程雨潇吴分潘雪菲秦黎阳陈静艳沙旭张全龙韦晓玲张秀娟马有为李兆欣张森浩郝刚
申请(专利权)人:华能桂林燃气分布式能源有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1