基于置信度计算的面向高铁列车运维服务知识融合的方法技术

技术编号:29792337 阅读:32 留言:0更新日期:2021-08-24 18:11
本发明专利技术提供了一种基于置信度计算的面向高铁列车运维服务知识融合的方法,包括:根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并建立置信度属性分值计算表;根据各置信度属性对于应用的权重从数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和置信度属性分值计算表确定各置信度子属性的得分值;根据各置信度子属性对于应用的权重和各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度;根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。本方法可以提高高铁列车运维服务领域知识入库的准确性。

【技术实现步骤摘要】
基于置信度计算的面向高铁列车运维服务知识融合的方法
本专利技术涉及高铁列车运维
,尤其涉及一种基于置信度计算的面向高铁列车运维服务知识融合的方法。
技术介绍
高铁列车运维数据包括车载监测数据、地面检测系统数据、列车检修数据等等,由于这些数据由不同厂家开发,不同时间上线使用,检测方法及所依据的标准也不尽相同,因此难免出现对同一个高铁列车实体对象给出的名称、检测数据的精度和颗粒度(即检测值)等不同,此外不同系统的稳定性和可靠性也不一样,有了准确的数据才能保证列车运行安全,当基于上述数据抽取的运维知识出现冲突时,如何取舍是目前需要亟待解决的问题。近年来,随着知识图谱技术的兴起,将知识图谱应用于工业装备运维服务领域已成为研究热点。知识图谱不是关注传统文档字符串数据,而是将数据抽取为实体和关系来表达知识。在知识图谱构建过程中,对于同一个知识,由于数据来源不同,抽取的实体、关系构成的三元组会出现表述不一致,如何处理不一致和有歧义的知识就成了一个问题,因此需要知识融合技术解决这些不一致和有歧义的知识。在现有的相关技术方案中,当多个数据提供者的数据不一致,要进行数据选择时,通常完全依赖人工筛选,没有考虑数据提供者的“权威性”,即可信性问题。因此,入库知识的正确与可信受人为因素影响很大,很有可能得到错误的结果。在近期的相关研究中,一些资料提到衡量“权威性”的方法,但这些方法还有待完善,对于高铁列车运维服务领域,这些方法显得难以获得满意结果。现有技术中也没有对数据提供者的“权威性”的认定方法,当多个数据提供者提供的知识出现不一致时,没有定量计算的方法来确定取舍,使得入库的知识不能保证其正确性,影响使用效果。因此,需要对不同来源数据的可信度进行定量的计算,以实现知识的融合。
技术实现思路
本专利技术提供了一种基于置信度计算的面向高铁列车运维服务知识融合的方法,以解决现有技术问题中存在的缺陷。为了实现上述目的,本专利技术采取了如下技术方案。本实施例提供了一种基于置信度计算的面向高铁列车运维服务知识融合的方法,包括:根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并根据置信度属性信息建立置信度属性分值计算表;根据各置信度属性对于应用的权重从所述数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和所述置信度属性分值计算表确定各置信度子属性的得分值;根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度;根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。优选地,方法还包括对高铁列车运维服务提供者进行数据标注,以作为高铁列车运维服务数据提供者的唯一标识。优选地,高铁列车运维服务提供者的基本信息包括:编号、名称、生产厂家、使用单位和机构名称;所述置信度属性信息包括:对于设备、装置和系统平台的置信度属性测量误差、故障率、误报率、平均故障恢复时间,对于第三方机构的系统评级、资深度和数据认可率。优选地,置信度属性分值计算表如下表1所示:表1优选地,各置信度子属性对应的分值分别根据如下内容计算:测量误差比为实际误差值与允许的最大误差值的比值;故障率比为实际故障率与最大允许故障率的比值;误报率比为实际误报率与最大允许误报率的比值;平均故障恢复时间比为实际的平均故障恢复时间与最大允许平均故障恢复时间的比值;系统评级主要针对提供数据的第三方系统,由主管单位等级评定,有1-10级,最高级别是1级;资深程度主要针对提供数据的第三方系统所在单位,根据系统所在单位的认证资质决定,为1-10级,最高级别是10级,数据认可率根据下式(1)计算:RL=DP×DK(1)DP为数据提供者的数据提供率;DK为数据提供者的数据采用比,其中,数据提供率计算方法为:对于数据提供者i,其提供的数据总量与行业认定的该类数据提供者可验证其稳定性和可靠性所需提供的最少数据量的比值,如下式(2)所示:DPi=DPQi/DPQS(2)其中:若DPi>1,则取DPi=1;数据采用比的计算方法为:对于数据提供者i,其提供的数据被采用的数量与数据提供者i提供的数据总量的比值,如下式(3)所示:DKi=DKQi/DPQi(3)。优选地,根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度,包括:根据下式(4)计算高铁列车运维服务提供者的得分:其中,vi为子属性s1、s2、…sm分别得到对应的得分值v1、v2、…vm,wi为各置信度子属性对于应用的权重。优选地,方法还包括对各置信度子属性对应的分值进行实时更新。优选地,根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合,包括:对于从多个高铁列车运维服务数据提供者的数据中提取的三元组,当他们的头实体和关系相同,但尾实体或参数值不同,对所述三元组进行融合。优选地,对所述三元组进行融合的具体步骤如下:1)根据高铁列车运维服务提供者的置信度,比较各个高铁列车运维服务提供者的置信度数值高低,并从高到低排序;2)当基于多个高铁列车运维服务数据提供者的数据得到三元组的尾实体或参数值不相同,则选取基于置信度最高的高铁列车运维服务提供者的数据抽取的三元组进行融合;当基于多个数据提供者的数据得到三元组的尾实体或参数值存在部分相同,则需进行融合计算,方法如下:设有N个需要融合三元组,其中具有相同尾实体或参数值的m组,每组的数量为ni,(i=1,2,…,m)且1≤ni≤m-1,计算各组的置信度bi,bi为本组高铁列车运维服务数据提供者的置信度之和除以所有的高铁列车运维服务数据提供者置信度之和,按各组置信度重新排序,取置信度最高的组所对应的三元组进行融合。由上述本专利技术的面向高铁列车运维服务知识融合的方法提供的技术方案可以看出,本专利技术提出一种符合运维领域特点的、标准的数据提供者置信度计算方法,对不同来源数据的可信度进行定量的计算,为实现知识的融合提供可能性,提高高铁列车运维服务领域知识入库的准确性,进而实现选择准确的知识构建知识图谱。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本实施例的一种基于置信度计算的面向高铁列车运维服务知识融合的方法流程图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同本文档来自技高网
...

【技术保护点】
1.一种基于置信度计算的面向高铁列车运维服务知识融合的方法,其特征在于,包括:/n根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并根据置信度属性信息建立置信度属性分值计算表;/n根据各置信度属性对于应用的权重从所述数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和所述置信度属性分值计算表确定各置信度子属性的得分值;/n根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度;/n根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。/n

【技术特征摘要】
1.一种基于置信度计算的面向高铁列车运维服务知识融合的方法,其特征在于,包括:
根据高铁列车运维服务提供者的基本信息和置信度属性信息建立数据提供者信息库,并根据置信度属性信息建立置信度属性分值计算表;
根据各置信度属性对于应用的权重从所述数据提供者信息库中选取数据提供者的置信度属性作为子属性,根据选取的各置信度子属性对应的分值和所述置信度属性分值计算表确定各置信度子属性的得分值;
根据各置信度子属性对于应用的权重和所述各置信度子属性的得分值计算高铁列车运维服务提供者的得分作为高铁列车运维服务提供者的置信度;
根据高铁列车运维服务提供者的置信度对高铁列车运维服务知识融合。


2.根据权利要求1所述的方法,其特征在于,所述的方法还包括对高铁列车运维服务提供者进行数据标注,以作为高铁列车运维服务数据提供者的唯一标识。


3.根据权利要求1所述的方法,其特征在于,所述的高铁列车运维服务提供者的基本信息包括:编号、名称、生产厂家、使用单位和机构名称;所述置信度属性信息包括:对于设备、装置和系统平台的置信度属性测量误差、故障率、误报率、平均故障恢复时间,对于第三方机构的系统评级、资深度和数据认可率。


4.根据权利要求1所述的方法,其特征在于,所述的置信度属性分值计算表如下表1所示:
表1








5.根据权利要求4所述的方法,其特征在于,各置信度子属性对应的分值分别根据如下内容计算:测量误差比为实际误差值与允许的最大误差值的比值;故障率比为实际故障率与最大允许故障率的比值;误报率比为实际误报率与最大允许误报率的比值;平均故障恢复时间比为实际的平均故障恢复时间与最大允许平均故障恢复时间的比值;系统评级主要针对提供数据的第三方系统,由主管单位等级评定,有1-10级,最高级别是1级;资深程度主要针对提供数据的第三方系统所在单位,根据系统所在单位的认证资质决定,为1-10级,最高级别是10级,数据认可率根据下式(1)计算:
RL=DP×DK(1)
DP为数据提供者的数据提供率;DK为数据提供者的数据采用比,其中,数据提供率计算方法为:对于数据提供者i,其提供的...

【专利技术属性】
技术研发人员:张宁张春刘峰王悦悦
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1