基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法技术

技术编号：24121457 阅读：66 留言：0更新日期：2020-05-13 03:12

一种基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，包括以下步骤：第一步、目标领域语料库的构建；第二步、面向语料库的实体抽取；第三步：结合Word2vec，对语料库进行指导性二次预分组，使用DBSCAN聚类算法构建知识图谱；第四步、各种可视化图形进行分类，归纳总结各类图形的属性和结构特征，通过创建可视化模型树VT来形式化地表达各类图形信息；第五步、定义M‑JSON为REST Web服务返回的JSON的原型结构，并将M‑JSON与可视化模型树中的数据结构进行匹配，利用第三步的知识图谱查询匹配的属性组合否存在实际语义关联，以选取有效的维度组合，提升自动化生成图形的精确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法
本专利技术涉及一种基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法。
技术介绍
面向服务的计算(Service-OrientedComputing，SOC)是当前工业界与学术界都备受关注的一种针对分布式系统的计算范型。在SOC计算模式的发展推动下，Web服务得到了进一步的普及与应用。随着2000年REST(RepresentationalStateTransfer)架构风格的提出，REST服务逐渐成为Web服务的重要组成部分。REST服务简单、轻量、快速的特点促使了它在Internet上盛行，并保持可观的指数增长，同时也带动了服务数量的增长。多样化的数据服务交叉融合了经济、医疗、体育、生活等多个领域，催生了巨量的数据。但是无论面对怎样的数据，人类获取数据的根本目的仍然在于获得数据中的有效信息。数据可视化通过交互式可视化界面及数据-图像转换技术来辅助用户对数据进行分析理解。可视化的基础是数据，而网络数据时代的数据是多源异构的(multi-sourceheterogeneous)，这带来了数据源集成，数据编排的问题；众多领域的数据服务供应商提供了大量服务，各个服务有各自不同结构的数据响应方式与响应格式，这为数据获取，数据解析带来了困难；随着多媒体技术与可视化技术的发展，人们不再满足于普通的表单数据，而追求更直观、丰富的数据展示形式与更便捷、高效的数据处理工具。因此，通过减少人为干预，自动化解析、编排异构的服务数据...

【技术保护点】
1.一种基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述方法包括以下步骤：/n第一步、目标领域语料库的构建：把网络语料内容作为构建知识图谱的基础，使用网络语料词条信息作为原始语料内容，为构建知识图谱而对原始网络语料内容进行筛选，比较分析网络词条的网页内容，原始语料内容中除了标题和正文信息外，还包含了HTML标签，词条本身的编辑信息，网页链接信息等与词条本身无关的冗余信息，对网络词条的内容进行过滤清洗，抽取标题与有效的正文内容，过滤内容包括：对词条的网页内容执行HTML标签/文本样式符号过滤、词条模板符号及非英文字符过滤、词条编辑信息过滤、图片信息过滤、链接信息过滤、页面专有标题属性名过滤以及数值过滤；/n第二步、面向语料库的实体抽取：知识图谱是由实体与关系构成图结构的数据信息网，以“实体-关系-实体”的三元组来表示知识图谱的基础结构，三元组中包括了两个有现实语义关系的实体和两个实体间的关系，用G＝(head，relation，tail)的形式来表示，其中G表示三元组，head表示头实体，tail表示尾实体，relation表示头实体和尾实体间的关...

【技术特征摘要】
1.一种基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述方法包括以下步骤：
第一步、目标领域语料库的构建：把网络语料内容作为构建知识图谱的基础，使用网络语料词条信息作为原始语料内容，为构建知识图谱而对原始网络语料内容进行筛选，比较分析网络词条的网页内容，原始语料内容中除了标题和正文信息外，还包含了HTML标签，词条本身的编辑信息，网页链接信息等与词条本身无关的冗余信息，对网络词条的内容进行过滤清洗，抽取标题与有效的正文内容，过滤内容包括：对词条的网页内容执行HTML标签/文本样式符号过滤、词条模板符号及非英文字符过滤、词条编辑信息过滤、图片信息过滤、链接信息过滤、页面专有标题属性名过滤以及数值过滤；
第二步、面向语料库的实体抽取：知识图谱是由实体与关系构成图结构的数据信息网，以“实体-关系-实体”的三元组来表示知识图谱的基础结构，三元组中包括了两个有现实语义关系的实体和两个实体间的关系，用G＝(head，relation，tail)的形式来表示，其中G表示三元组，head表示头实体，tail表示尾实体，relation表示头实体和尾实体间的关系，每个实体本身还包含了属性及属性值，将实体的属性也转化为与该实体相连的尾实体，并在两者间建立relation关系，实体抽取分为命名实体抽取、属性实体抽取及名词实体抽取三个阶段；
第三步：结合Word2vec，对语料库进行指导性二次预分组，使用DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)聚类算法构建知识图谱：三元组G的结构为(head，relation，tail)，随着head和tail的不同，relation也有多种关系，relation实际上是知识图谱中的关系集合，用以表示多种实体间的复杂联系，其目的在于判断两个属性间是否存在语义关联，即两个实体间是否存在关系，而不关注存在何种关系，通过计算语料库词汇的词向量，将语料库进行二次分组及其对应的词向量集进行二次分簇，使用DBSCAN聚类算法来抽取实体关系；
第四步、构建可视化模型树VT：各种可视化图形进行分类，归纳总结各类图形的属性和结构特征，通过创建一种可视化模型树VT，来形式化地表达各类图形信息；
第五步、基于网络语料知识图谱的数据可视化优化匹配方法：定义M-JSON为RESTWeb服务返回的JSON的原型结构；将Web数据原型结构M-JSON与可视化模型树VT中的每个StructModel依据数据结构进行匹配，返回的结果是符合条件的候选坐标轴/图例的属性组合构成的集合；在结构匹配的基础上，利用第三步中构建的知识图谱，查询匹配出来的候选坐标轴/图例的属性组合否存在实际语义关联，根据查询结果优化匹配，选取有效的维度组合，以提升自动化生成图形的精确率。

2.如权利要求1所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述第二步的过程如下：
2.1、实体抽取：实体抽取又称为命名实体识别，是从文本数据集中自动识别出命名实体，这通常指的是人名、地名、机构名词以及其它所有名称为标识的实体，该流程通过使用一些主流的命名实体识别系统来完成，其步骤包括：一、通过工具对语料库内容进行命名实体识别；二、将识别出的命名实体标注它的类型属性；三、根据类型属性对命名实体进行过滤，删除不合适的命名实体，保留其它命名实体的标注，同时将词条名称默认定义为命名实体；
2.2、属性实体抽取：以词条网络语料的信息框为属性的来源，从信息框中提取属性，然后在语料库中截取每个词条的信息框信息，按照信息框结构，提取属性名称，作为所属词条的名称所对应的命名实体的尾实体，不保留属性值，若某词条不存在信息框，则不必为该词条对应的命名实体创建尾实体；
2.3、名词实体抽取，包括四个步骤：单词拆分(Split)、词性标注(POSTagging)、停用词过滤(StopWordFiltering)、词干提取(Stemming)，命名实体抽取步骤中已经标注了识别出的命名实体，因此接下来的操作仅对标注的实体外的语料内容进行抽取。

3.如权利要求2所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述2.3的过程如下：
2.3.1、单词拆分：使用正则表达式设计拆分规则模式，根据空格、符号、段落对语料库内容进行单词拆分，获取单词文本；
2.3.2、词性标注：为获取语料库中的名词，首先需要对文本词汇进行词性标注，词性标注也被称为语法标注或词类消疑，是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术，许多单词可能同时含有多个词性，拥有多种意义，而其词性的选择取决于上下文意义，将已进行命名实体标注的语料库作为标注对象文本进行词性标注，根据标注结果查找出名词对象，并在语料库中剔除非名词对象，但不包括非名词的词条名称，此时语料库中保留的是每个词条中的命名实体、名词对象及原有标点，并且所有内容仍然保持原有文本顺序；
2.3.3、停用词过滤：停用词这一名称来源于StopWord，指代在信息检索中为了节省存储空间和提高搜索效率，在处理自然语言文本时自动过滤掉的字或词，对于一个给定的目的，任何一类词语都可以被选作停用词，停用词主要包括两类：一类是人类语言中包含的功能词(FunctionWords)，这类功能词使用非常普遍，出现频率极高，但又没有确切的实际含义；另一类为实词(ContentWords)，这里指一部分有实际具体意义但又无明确指代或指向的词，在自然语言处理中，已有了停用词表(StopWordList)，将停用词表作为参照字典，通过单词比对从语料库中删除停用词，进一步精简语料库内容，确保保留语料中无停用词；
2.3.4、词干提取：词干化提取是一种去除形态词缀得到对应词根的过程，是英语等西方语言特有的处理过程，同一个英文单词有单数和复数的变形、时态的变形、人称代词对应不同谓语的变形，这些词虽然形式上有一些细微差别，但是都对应着相同的词根，在计算相关性的情况下应该作为相同的词来进行处理，这时就需要进行词干化处理，波特词干算法(PorterStemmingAlgorithm)是一种主流的词干提取算法，其核心理念是根据形态词缀的类型，对单词进行分类处理还原，除了部分特殊的变形，大多数的单词变形是有一定规律的，依照规律将形变分为6种类别。

4.如权利要求3所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述2.3.4中，词干的提取步骤如下：
2.3.4.1、依照单词变形类别，针对每一种情况进行词缀去除与单词复原，获得语料库中名词对象的词干信息，以减少同词不同形的情况，6种不同单词变形如下：
2.3.4.1.1、复数、以ed和ing结尾的单词；
2.3.4.1.2、单词中包含元音，并以y结尾的单词；
2.3.4.1.3、双后缀的单词；
2.3.4.1.4、以-ic，-ful，-ness，-ative等为后缀的单词；
2.3.4.1.5、<c>vcvc<v>情形下，-ant，-ence等后缀的单词(c为辅音，v为元音)；
2.3.4.1.6、<c>vc<v>元音辅音间有超过1对vc的情形下，以e结尾的单词；
2.3.4.2、将还原为词干的名词对象创建为名词实体，并在语料库中更新名词对象，用词干形式来表示。

5.如权利要求1～4之一所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述第三步中，DBSCAN算法是一种基于密度的噪声应用空间聚类算法，该算法根据样本的密度分布来考查样本间的可连接性，并基于可连接的样本来扩展聚类簇，以获得最终的聚类结果，过程如下：
3.1、使用Word2vec将语料库W训练成词向量簇Cube：Word2vec是一种词向量工具，它将词表示成词的特征向量，Word2vec将词转换成数值形式，使用一个N维向量来表示，将语料库W嵌入一个向量空间后得到词向量簇Cube，每一个词向量离散地分布于其中，根据词向量相互关联程度的疏密，分布状态也呈现出不同的聚集情况，通过分析词向量的聚集状态可以获得词的关联性分布状态，按照不同的亲疏关系对词向量进行分组，以获取词之间的关系，即实体间关系；
3.2、对语料库进行两次指导性预先分组：由于DBSCAN聚类算法的分簇易受数据集本身分布情况影响，为保证核心概念，即目标领域的主要分类对象或关键词为聚类中心，需要对语料库进行两次指导性预先分组；
3.3、在指导性分组的基础上，通过DBSCAN聚类算法对Cube中的每一个词向量簇cubez进行分簇并计算cubez的聚类中心Centroidz，对每一个新生成的词向量簇Ck计算簇心Centroidk，根据词向量对象与实体对象间的映射关系，查找出Centroidz与Centroidk所对应的实体Entityz与Entityk，以Entityz为头实体，Entityk为尾实体，默认实体关联为R，构建三元组(Entityz，R，Entityk)，并加入三元组集合中，通过DBSACN聚类算法对每个语料集合自动查找聚类中心，进行分簇，同时构建三元组。

6.如权利要求5所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述3.3的流程如下：
3.3.1、通过DBSCAN聚类算法对Cube中的每一个词向量簇cubez进行分簇并计算cubez的聚类中心Centroidz；
其中，步骤3.3.1中的DBSCAN聚类算法的执行流程如下：
3.3.1.1、在cubez中选取任意未访问过的样本p(即数据点p)为圆心，划出半径为ε的圆形邻域(即ε-邻域)；
3.3.1.2、若ε-邻域中的样本数不小于minPts(邻域内最小样本数)，则为p创建一个新的簇C，并将领域内的样本加入集合N；
3.3.1.3、对集合N内的样本p’重复步骤3.3.1.1和3.3.1.2，每次划分ε-邻域前都对p’的从属进行判断，若p’不属于任何簇，就将p’加入簇C；
3.3.1.4、当N中所有样本都被访问完毕，在cubez中选取另一未访问过的样本，并重复步骤3.3.1.1，直至cubez中的样本均被访问；
3.3.1.5、获得的聚类结果：簇集合；
3.3.2、对每一个新生成的词向量簇Ck计算簇心Centroidk，根据词向量对象与实体对象间的映射关系，查找出Centroidz与Centroidk所对应的实体Entityz与Entityk，以Entityz为头实体，Entityk为尾实体，默认实体关联为R，构建三元组(Entityz，R，Entityk)，并加入三元组集合TP；
3.3.3、若聚类结果中最小簇的样本数量大于阈值Z时，将已获得的簇集合ClusDS作为输入，调整并减小(ε，minPts)值后，再次对每个簇进行聚类，执行步骤3.3.1与3.3.2；若聚类结果中最小簇的样本数量不大于阈值Z时，则查询出每个簇中各个样本所对应的实体Entityq，将其与所在簇的簇心所对应的实体EntityQ组合为多个三元组(EntityQ，R，Entityq)；
其中，在DBSCAN聚类算法中，ε-邻域和minPts的大小是由cubez中的样本数量决定的，cubez样本数量越大，(ε，minPts)值越大，前期使用较大的邻域范围与邻域内最小样本数能够限制分簇数量，若使用较小的值，产生的大量细分组会导致信息过度分散，提取的簇心对应实体作为上层实体无法展现核心内容，递归调用DBSCAN算法时，按梯度递减调整(ε，minPts)值，减小邻域范围及最小样本数，依次对上一次聚类得到的簇再次进行分簇，缩小每个簇中的样本数量；
至此语料库W中所有的实体都与其他实体建立了关系，它们对应构成的三元组相互组合，从而构成了知识图谱，由于自动聚类所查找出的簇心与分簇情况，有可能会产生相关性较弱的实体关系，因此知识图谱构建完成后需要人工校对筛查，去除相关性低的实体关联，以提高知识图谱的质量。

7.如权利要求5之一所述的基于DBSCAN聚类算法的知识图谱关系抽取与REST服务可视化融合方法，其特征在于，所述3.2的步骤如下：
3.2.1、对语料库W及其对应的词向量簇Cube进行一次分组，步骤如下：
3.2.1.1、提取语料库W中根语料标签，形成核心实体；通过爬虫获取网络语料并提取语料库中根语料标签的第一层子分类标签，并生成第一层子分类标签集合Tag＝{t1，t2...ti...tn}，其中(1＜＝i＜＝n)，共包含了n个子分类标签，每个标签都有一个对应的实体和词向量，并且将这些实体都与核心实体组合，构成若n个三元组，并加入三元组集合TP；
3.2.1.2、将分类标签集合Tag中的每个标签ti对应的词向量作为簇心，计算词向量簇Cube中各个数据点到各个质心的欧式距离，然后根据就近原则，将数据点分配至每个簇心所对应的簇中，此时语料库W被分为了n个语料集wi(1＜＝i＜＝n)，语料集合wi对应的词向量簇为cubei；

【专利技术属性】
技术研发人员：陆佳炜，王小定，高燕煦，朱昊天，高飞，肖刚，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人