一种基于语义模型的Handle存量标识解析方法技术

技术编号:31316828 阅读:11 留言:0更新日期:2021-12-12 23:55
本发明专利技术公开了一种基于语义模型的Handle存量标识解析方法,包括步骤:在企业内部对存量标识进行预处理,之后通过朴素贝叶斯算法对存量标识进行分类并映射到建立的语义知识模型中,然后根据定义好的映射规则将语义知识模型表示的存量标识转换为具备唯一性的Handle标识。本发明专利技术将企业存量标识与Handle标识建立映射关系使存量标识的解析转换为对应的Handle标识的解析,实现了企业的存量标识与Handle体系的兼容。Handle体系的兼容。Handle体系的兼容。

【技术实现步骤摘要】
一种基于语义模型的Handle存量标识解析方法


[0001]本专利技术属于工业互联网标识解析
,涉及语义解析方法,具体为一种面向Handle体系的工业互联网存量标识解析方法。

技术介绍

[0002]工业互联网标识通过定义编码格式对工业生产中的人、物、料、工业设备进行唯一、无歧义命名,为感知物理世界、信息检索提供支持,助力开展各类相关应用。其作用类似互联网域名,赋予每一个产品、人员、零件、设备唯一的“身份证”,实现资源的区分和管理。
[0003]工业互联网现有的标识解析方式需要企业加入标识解析体系后,给其产品赋予唯一的解析体系标识,这样用户才能根据标识传到信息,实现标识解析的功能。但是企业在加入体系前所生产的产品,并没有在现有工业互联网标识解析体系中注册,这些产品上只有企业内部的标识体系的标识,这些标识被称为存量标识。由于存量标识的格式与工业互联网现有的各标识解析体系异构,这些产品在流通过程中将无法通过标识来享受工业互联网标识解析体系带来的解析和应用服务。这就增加了企业加入工业互联网的成本,不利于工业互联网在企业中的推广。
[0004]已有研究者针对此问题提出过一种将入驻企业的存量标识统一进行管理的方法(郑思源.一种工业互联网标识解析方法,CN201911318743.2)。但是该方法在入驻企业的数量巨大的时候其维护的存量标识规则列表会变的巨大难以维护,进而导致标识解析效率的变低。至于语义模型方面,虽然可以通过存量标识建立语义模型进而进行解析并通过语义查询语言进行查询,但是现有的语义模型多是利用文本建立,其多用在处理无结构的、无明确含义或含义隐藏在文本中需要推理分析的数据。其处理问题的重点在于数据与数据间的关系。然而工业互联网存量标识多为结构化的、有明确含义的数据。我们面临的主要问题是这些数据间的标识方式异构,即同样的一种产品,可能有着各种各样的编码方式,这些编码方式可能相似也可能完全不同,故无法直接使用现有的构建语义模型的方法实现存量标识的语义模型构建并与Handle体系间建立映射关系。

技术实现思路

[0005]本专利技术目的在于克服现有技术中存在的问题,提供一种面向Handle解析体系的企业存量标识的统一管理方法,用于解决现有技术中存在的企业存量标识与Handle体系不兼容的问题,将企业的存量标识转换为Handle标识。该方法特别适用于解决Handle体系中对于存量标识的解析问题。
[0006]为了实现本专利技术目的,采用的技术方案如下:
[0007]一种基于语义模型的Handle存量标识解析方法,将存量标识预处理后通过朴素贝叶斯算法分类并将分类结果映射到语义模型中,之后通过事先定义的规则将语义模型表示的存量标识转换为Handle标识,从而将存量标识的解析转换为对Handle标识的解析。通过语义模型唯一性的表示各个企业存量标识使得解析结果不具有歧义性。所述语义模型包括
概念、实例、企业三个部分;所述语义模型是通过朴素贝叶斯算法对存量标识分类后,将分类结果按规则映射构建的。
[0008]具体步骤如下:
[0009](1)、在企业内部场景对存量标识进行预处理。将无效标识去除以保证标识的正确性。无效标识包括失效标识和多义标识。失效标识指在企业现有解析体系下也无法获取查询结果的标识。多义标识指在企业现有解析体系下进行解析得到多个解析结果的标识。这两种标识都无法获取正确的解析结果需要进行修改或剔除处理。
[0010](2)、通过朴素贝叶斯算法对存量标识进行分类处理。将存量标识按照产品名和企业归属分为不同的组。
[0011](3)、构建一个通用语义知识模型。模型如下:M={概念,实例,企业}。
[0012](4)、基于规则将步骤(2)中的分组映射为语义知识模型。
[0013]映射规则如下:
[0014]产品名映射为概念,
[0015]存量标识本身映射为实例,
[0016]企业归属映射为企业。
[0017](5)、按照Handle标识的格式将语义知识模型转化为Handle标识。转换格式如下:
[0018]<Handle>::=<Stock Identification Manage>/<concept_instance_enterprise>
[0019]Stock Identification Manage为一个Handle前缀,其在Handle解析系统中注册,所有的存量标识都共用该前缀。
[0020]concept_instance_enterprise为一个Handle后缀,其由步骤(4)中的知识模型转换而来。其具体形式为由两个下划线连接的知识模型的三个组成部分。
[0021]进一步的,所述步骤(2)中通过朴素贝叶斯算法对存量标识的处理过程包含以下步骤:
[0022]1)准备阶段。此阶段需要确定特征属性,并对每个特征属性进行适当划分,然后由人工对部分待分类存量标识进行分类,形成训练样本合集。特征属性是人为划定的存量标识的不同部分。如:编码长度、编码组成等。特征属性的选取对算法形成的分类器的分类正确率有较大影响。这一阶段的输入为待分类的存量标识,输出为特征属性和训练样本。此阶段需要人工完成。
[0023]2)训练分类器。此阶段需要生成分类器。主要工作是计算每个类别在样本中的出现概率以及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入为特征属性和训练样本,输出是分类器。
[0024]3)选取部分存量标识人工进行分类后作为测试分类器的数据合集,对训练好的分类器进行测试。
[0025]测试后得到成功率=测试集中成功的数据个数/测试集中所有数据总个数
[0026]若是成功率低于96%则回到步骤1)更改特征属性,并继续向下进行。
[0027]4)对存量标识进行处理。使用分类器对待分类的存量标识进行分类,其输入为分类器和待分类存量标识,输出为存量标识与其所属的组。
[0028]进一步的,所述步骤(3)中语义模型具体解释如下:
[0029]模型为:M={概念,实例,企业}。该模型为一个由三个概念组成的三元组。由概念、实例和企业三个元素组成。详述如下:
[0030]概念也可以称为产品名。其存在是为了将同一产品在不同企业的异构表示统一起来。
[0031]实例,其是企业现有存量标识本身。
[0032]企业,即模型中实例的生产企业。
[0033]该模型的三种元素之间,概念与企业是多对多的关系,一个企业可能生产多种产品,一种产品可能有很多个企业同时生产。实例是概念的实例化。每一种产品都几乎不会只生产一件,而实例的主要目的是对相同的产品进行区分,保证工业互联网中每一个实体都可以有一个唯一性的标签。由于各个企业的存量标识本身在企业内部必然是唯一性的,即使由于某种错误使部分标识不具备唯一性,也在预处理阶段被排除在外。故可以采用存量标识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义模型的Handle存量标识解析方法,其特征在于:将存量标识预处理后通过朴素贝叶斯算法分类并将分类结果映射到语义模型中,之后通过事先定义的规则将语义模型表示的存量标识转换为Handle标识,从而将存量标识的解析转换为对Handle标识的解析。2.根据权利要求1所述的一种基于语义模型的Handle存量标识解析方法,其特征在于:具体包括如下步骤:(1)、在企业内部场景对存量标识进行预处理将无效标识去除以保证标识的正确性;无效标识包括失效标识和多义标识;失效标识指在企业现有解析体系下也无法获取查询结果的标识,多义标识指在企业现有解析体系下进行解析得到多个解析结果的标识;(2)、通过朴素贝叶斯算法对存量标识进行分类处理将存量标识按照产品名和企业归属分为不同的组;(3)、构建一个通用语义知识模型模型如下:M={概念,实例,企业};该模型为一个由三个概念组成的三元组,由概念、实例和企业三个元素组成;如下:概念,称为产品名,其存在是为了将同一产品在不同企业的异构表示统一起来;实例,其是企业现有存量标识本身;企业,即模型中实例的生产企业;(4)、基于规则将步骤(2)中的分组映射为语义知识模型映射规则如下:产品名映射为概念,存量标识本身映射为实例,企业归属映射为企业;(5)、按照Handle标识的格式将语义知识模型转化为Handle标识;转换格式如下:<Handle>::=<Stock Identification Manage&...

【专利技术属性】
技术研发人员:宋世杰霍健
申请(专利权)人:码客工场工业科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1