【技术实现步骤摘要】
一种基于综合能源系统特征的字符串匹配算法
[0001]本专利技术涉及综合能源服务
,具体为一种基于综合能源系统特征的字符串匹配算法。
技术介绍
[0002]随着综合能源系统建设的深入实施和智能传感设备的广泛使用,数据量呈爆炸性增长趋势,能源行业迎来了大数据时代。能源企业各部门负责不同的业务,对设备的监测手段有所差异,监测数据的种类与结构也存在多样化,但各部门对能源设备信息的采集存在相互交叉关系,引起不同系统中存在重复数据或者相关数据,而这些系统缺乏数据共享和数据融合,形成“数据孤岛”现象。因此,通过多源异构数据处理方法实现能源数据共享对制定综合能源调度控制决策及用户侧数据挖掘具有重要意义。
[0003]传统数据融合处理方法存在以下不足:
[0004]传统的数据融合处理方法针对数据模型建立、数据抽取、数据转换、数据加载等问题,随着能源信息化要求的增加、综合能源大数据的出现,尤其是综合能源系统中的多源异构数据,传统的多源异构数据处理方法难以完成对综合能源大数据的处理和分析。
[0005]很多不同来源 ...
【技术保护点】
【技术特征摘要】
1.一种基于综合能源系统特征的字符串匹配算法,其特征在于,包括以下步骤:S1、构建综合能源系统字符串型数据关键词集,将综合能源系统中常用的公共词语定义为综合能源系统数据关键词;关键词通过分析系统数据信息和历史数据特点进行提取,将关键词整合到一个集合中,组成关键词集;S2、建立综合能源系统数据关键词等价规则,在综合能源系统数据关键词中,存在多词同义情况;针对语义重复问题建立一种关键词等价规则,该规则将相同语义的关键词进行等价处理;S3、建立字符串匹配规则,为提高字符串匹配的速度与精度,在匹配过程中依据综合能源字符串数据特点制定字符串匹配规则。2.根据权利要求1所述的一种基于综合能源系统特征的字符串匹配算法,其特征在于:所述步骤S2中还包括以下子步骤:S2.1、构建关系矩阵:给定一关键词集合A={a1,a2,...,a
i
,a
n
},集合A的一个二元关系R=A
×
A,设M
R
=(m
ij
)n
×
n为R的关系矩阵;当a
i
与a
j
等价时,m
ij
=1,否则m
ij
=0;a
1 a
2 a
3 a
4 ...S2.2、构建唯一标识集,为实现字符串的合理匹配,需将等价的关键词进行唯一标识;根据关系矩阵M
R
将关键词集合A划分为不同等价子集A
k
,选择A
k
中的元素t
k
作为A
k
的代表元素,构建唯一标识集T={t
k
}。3.根据权利要求1所述的一种基于综合能源系统特征的字符串匹配算法,其特征在于:所述步骤S3中建立的字符串匹配规则包括以下几种:1)关键词匹配规则:当两个字符串中关键词经过等价规则转化为唯一标识之后,若存在不一致的情况,则直接判定字符串匹配度d
w
=0,即字符串不匹配;若关键词完全一致,则跳转到规则2);2)连续数字型数据匹配规则:在字符串数据中除关键词外还包含汉字、数字、罗马数字等非关键词数据;如出现若干连续的数字或希腊数字则将其看做一个整体;关键词匹配成功后需对数字及罗马数字进行匹配,依据数字型数据匹配方法:若不相等,则判定字符串匹配度d
【专利技术属性】
技术研发人员:许洪华,朱正谊,周冬旭,朱红,张玮亚,徐荆州,许自强,钱欣,吕梦婕,
申请(专利权)人:国网江苏省电力有限公司南京供电分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。