一种基于语义概念空间的工业产业链的分布式索引方法技术

技术编号:30362838 阅读:73 留言:0更新日期:2021-10-16 17:22
本发明专利技术公开了一种基于语义概念空间的工业产业链的分布式索引方法,包括:建立基于工业大数据和网络特征分析的语义概念空间模型,语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统;tSLN为关键词语义链网络,由所有关键词集合T与所有关键词之间的语义关系集合构成,cSLN为概念层语义链网络,由概念集合C与概念及其语义关系构成。对语义概念空间中进行预处理,然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上;获取用户的检索要求,并分发到各个节点上,节点获得请求后,开始检索语义概念空间并返回检索结果,对节点返回的数据进行合并排序,返回给用户。返回给用户。返回给用户。

【技术实现步骤摘要】
一种基于语义概念空间的工业产业链的分布式索引方法


[0001]本专利技术涉及语义概念空间与分布式索引
,特别涉及一种基于语义概念空间的工业产业链的分布式索引方法。

技术介绍

[0002]依据《新一代人工智能发展规划》,新一代人工智能技术将围绕大数据智能、群体智能、工业自主智能系统等方向持续攻关,并从基础理论、支撑体系、关键技术、创新应用等层面构筑知识群、技术群和产品群的生态环境。本专利技术针对工业产业链领域的语义概念空间的构建、语义分析、筛选与更新等,借助深度学习、人工智能、并行关联规则增量更新算法等技术,旨在构建概念引导的语义空间分布式索引方法。
[0003]工业产业链系统中存在大量需要语义识别的环节。传统的语义概念空间构建已有了一些应用,然而其大多面向单一的工业领域,针对来源广、数据量大且类型多样的工业大数据还存在一些不足。因此,针对工业数据来源广、数据量大且类型多样,造成的检索效率低、更新速度慢等问题。
[0004]现有技术的一些方法中,利用跨模态数据库,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。然而,上述专利通过根据语义关系进行跨数据库进行相似性搜索,在数据量庞大的工业产业链领域,搜索准确率不高。

技术实现思路

[0005]本专利技术的目的是提供一种基于语义概念空间的工业产业链的分布式索引方法,通过对产业链的工业语义数据进行建模,建立语义分析,以对差异化工业大数据的快速多样访问需求。
[0006]为了实现上述任务,本专利技术采用以下技术方案:
[0007]一种基于语义概念空间的工业产业链的分布式索引方法,包括:
[0008]步骤1,建立基于工业大数据和网络特征分析的语义概念空间模型
[0009]语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统;
[0010]首先通过对工业领域中从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造整个产品全生命周期各个环节所产生的各类数据,包括生产经营相关业务数据,设备物联数据,外部数据,进行归一化与标准化处理并构建数据集;然后针对数据集进行语义信息挖掘,文本分词,关键词提取和关联规则获取,得到关键词集合和概念集合;
[0011]关键词层语义链网络tSLN是由关键词及其语义关系集合R
T
构成的网络,表示为:
[0012]tSLN=<T,R
T
>=<T,R
T
={t
i
t
j
,[w
a
,w
s
],1<t
i
,t
j
<T}>
[0013]其中T为网络的顶点集合或称为关键词集合,每个顶点表示一个关键词;R
T
表示网络中边的集合,关键词之间可以同时存在多种语义关系,其中t
i
,t
j
为边的两个顶点,w
a
边表
示两个顶点t
i
,t
j
之间的关联语义关系的权值,w
s
表示两个顶点t
i
,t
j
之间的相似语义关系的权值;
[0014]采用关联语义关系的关键词语义链网络的构建算法为:
[0015]获取数据集中的关键词集合,利用关联规则集合算法获取关键词集合中任意两个关键词的关联规则;
[0016]以关键词集合T作为tALN的顶点集合,顶点集合中的每个顶点为一个关键词;
[0017]为每两个关键词(A,B)之间设置一个关联语义关系的权值,设置规则是:
[0018]如果AR
AB
存在,则WAR
AB
=weight
AB
,否则WAR
AB
=0;AR
AB
表示从关键词A到关键词B的关联规则,weight
AB
表示AR
AB
的权值,初始权值由使用者自行设定;
[0019]根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值;
[0020]通过设置不同的关键词对的关系权值,建立关键词之间的连接,形成关键词层语义链网络;
[0021]概念层语义链网络cSLN是由概念集合C所有的概念及其语义关系R
C
构成的网络,表示为:
[0022]cSLN=<C,R
C
>=<c,R
C
={c
i
c
j
,[w
a
,w
s
],1<i,j<|C|,0<[w
a
,w
s
]<1}>
[0023]其中C是网络的顶点集合,每个顶点表示一个概念;R
C
是网络中边的集合,概念之间存在着多种语义关系,每条边描述为一个三元组(c
i
c
j
,[w
a
,w
s
]),其中c
i
c
j
为两个边的顶点,w
a
表示c
i
c
j
之间的关联语义关系的权值,而w
s
表示c
i
c
j
之间相的似语义关系的权值;
[0024]所述概念层语义链网络cSLN的构建方法为:
[0025]选取概念集合的中心节点概念作为候选概念,通过度分步法,绘制顶点度分布曲线,虚线为度,而实线为对应顶点数量曲线,二条线的交点即为所求的度阈值,设定节点度的阈值,度大于阈值的概念作为候选概念;
[0026]为每一个概念选择属性词及属性词的语义关系对概念进行语义表示,构建概念的小粒度语义空间:首先,构造概念的候选属性集,从概念集合中,依次选取概念节点的一阶邻居节点概念、二阶邻居节点概念、
……
作为候选属性形成概念的候选属性集;然后,从候选属性集中筛选概念的属性;从候选属性集中不断选择概念加入概念的语义空间,直到空间进入稳定状态为止;
[0027]步骤2,分布式索引构建
[0028]首先,对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理,然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上;获取用户的检索要求,并分发到各个节点上,节点获得请求后,开始检索语义概念空间并返回检索结果,对节点返回的数据进行合并排序,返回给用户。
[0029]进一步地,所述根据关键词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义概念空间的工业产业链的分布式索引方法,其特征在于,包括:步骤1,建立基于工业大数据和网络特征分析的语义概念空间模型语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统;首先通过对工业领域中从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造整个产品全生命周期各个环节所产生的各类数据,包括生产经营相关业务数据,设备物联数据,外部数据,进行归一化与标准化处理并构建数据集;然后针对数据集进行语义信息挖掘,文本分词,关键词提取和关联规则获取,得到关键词集合和概念集合;关键词层语义链网络tSLN是由关键词及其语义关系集合R
T
构成的网络,表示为:tSLN=<T,R
T
>=<T,R
T
={t
i
t
j
,[w
a
,w
s
],1<t
i
,t
j
<T}>其中T为网络的顶点集合或称为关键词集合,每个顶点表示一个关键词;R
T
表示网络中边的集合,关键词之间可以同时存在多种语义关系,其中t
i
,t
j
为边的两个顶点,w
a
边表示两个顶点t
i
,t
j
之间的关联语义关系的权值,w
s
表示两个顶点t
i
,t
j
之间的相似语义关系的权值;采用关联语义关系的关键词语义链网络的构建算法为:获取数据集中的关键词集合,利用关联规则集合算法获取关键词集合中任意两个关键词的关联规则;以关键词集合T作为tALN的顶点集合,顶点集合中的每个顶点为一个关键词;为每两个关键词(A,B)之间设置一个关联语义关系的权值,设置规则是:如果AR
AB
存在,则WAR
AB
=weight
AB
,否则WAR
AB
=0;AR
AB
表示从关键词A到关键词B的关联规则,weight
AB
表示AR
AB
的权值,初始权值由使用者自行设定;根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值;通过设置不同的关键词对的关系权值,建立关键词之间的连接,形成关键词层语义链网络;概念层语义链网络cSLN是由概念集合C所有的概念及其语义关系R
C
构成的网络,表示为:cSLN=<C,R
C
>=<c,R
C
={c
i
c
j
,[w
a
,w
s
],1<i,j<|C|,0<[w
a
,w
s
]<1}>其中C是网络的顶点集合,每个顶点表示一个概念;R
C
是网络中边的集合,概念之间存在着多种语义关系,每条边描述为一个三元组(c
i
c
j
,[w
a
,w
s
]),其中c
i
c

【专利技术属性】
技术研发人员:李攀硕邓作林鲁仁全徐雍
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1