一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法技术

技术编号:22166948 阅读:184 留言:0更新日期:2019-09-21 10:35
本发明专利技术公开了一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法,包括:提取同义词集合有效信息,并将其映射到Neo4J中的同义词集结点上;采用广度优先算法遍历每个以特定关系相关连的两个同义词集结点,并生成相应的Neo4J同义词集结点之间的连接;遍历WordNet中的所有单词和每个单词对应的义元集合,并基于义元集合实现单词到同义词集的绑定形成单词结点。本发明专利技术采用基于WordNet语义关系网络实现了高效的语义计算,语义计算的实现上浮到了基于Cyper语言层,表达更加直观,使得语义计算可视化,并且映射到Neo4j的图结构,处理数据的速度更快;Neo4j的图结构的优化使得语义检测算法的实现过程中的查询从空间复杂度On^n降到了O1。

A Mapping Method from WordNet to Neo4J, Semantic Detection Method and Semantic Computing Extended Interface Generation Method

【技术实现步骤摘要】
一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
本专利技术主要涉及信息处理
,尤其涉及一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法。
技术介绍
WordNet是有普林斯顿大学专家设计的一种基于认知语言学的英语词典,由于它克服了传统词典中忽律统一信息组织的问题,所以它非常适合用于语义计算。它的核心在于将单词之间的语义关系抽取出来,通过同义词集的概念实现具像化,形成一个语义关系网络。每个同义词集都代表着一个基本的语义概念,单词通过链接一个个同义词集,实现一种单词间间接的联系。在WordNet中主要有名词语义网络、动词语义网络、形容词语义网络和副词语义网络。Neo4j是专门用于网络图存储的图数据库,它具有更快的海量数据处理速度、更直观的数据、更加灵活的数据存储以及稳定的计算效率。在数据量、数据关联达到一定程度时,传统关系型数据库逐渐乏力,Neo4j能够稳定应对;相比传统SQL语句,Neo4j使用的Cyper语言对关系的表达更加直观;新数据的存储,一律为边与节点、边属性与节点属性,不需要考虑表的结构以及新表与其它表的关联;得益于Neo4j底层的图存储结构和基于图数据结构的优化算法,Neo4j的操作速度始终如一,但目前语义计算的查询空间复杂度高,个人电脑很难进行处理,且语义计算不可视,不直观。
技术实现思路
专利技术目的:本专利技术实施例提供了一种WordNet到Neo4J的映射方法,用以解决现有技术中语义计算复杂、速度慢的问题;本专利技术还提供一种基于Neo4J图库的语义检测方法,降低了现有技术中语义计算的空间复杂度;另外,本专利技术还提供一种语义计算扩展接口生成方法,解决了语义检测中的功能单一,不可发展的问题。技术方案:一种WordNet到Neo4J的映射方法,包括:(1)提取同义词集合有效信息,并将其映射到Neo4J中的同义词集结点上;(2)采用广度优先算法遍历每个以特定关系相关连的两个同义词集结点,并生成相应的Neo4J同义词集结点之间的连接;(3)遍历WordNet中的所有单词和每个单词对应的义元集合,并基于义元集合实现单词到同义词集的绑定形成单词结点。进一步地,包括:所述步骤(1)中,同义词集合有效信息包括:同义词集ID,以及对该同义词集的解释Gloss;所述将其映射到Neo4J同义词集结点,包括:通过WordNet解析引擎生成在Neo4J中生成同义词集结点的Cyper语句,并为每个同义词集结点生成固定的同义词集类型Synset,所述同义词集ID由Synset的对应lexical决定,每个同义词集结点具有与同义词集合对应的同义词集结点ID和说明属性Gloss,通过同义词集合的同义词集ID和同义词集结点ID确定唯一的同义词集结点。进一步地,包括:所述步骤(2)中,生成相应的Neo4J同义词集结点之间的连接,包括:以每个同义词集结点为起点,采用广度优先算法循环遍历所有与其具有直接语义关系的同义词集结点;借助API传入的同义词迭代器对象,构造MATCH子句、WHERE子句和CREATE子句,实现从Neo4J数据库中匹配并获得对应的同义词集结点的指针。进一步地,包括:所述直接语义关系为两个单词分别对应关联的同义词集之间存在的所有类型的语义关系,可包括:同根关系、同义关系、上位词关系、下位词关系、下位词关系、部分组成词、部分构件词、同等关系以及迭代上位词关系。进一步地,包括:所述步骤(3)具体包括:遍历WordNet中的单词,并迭代以下步骤,直到遍历所有的单词:(31)对应生成Neo4J中所述连接关系不确定的单词结点,所述单词结点为Word类型,并且具有lemma属性;(32)所述WordNet解析引擎根据义元集合中指向的同义词集的ID构建MATCH和WHERE语句,并基于此生成构建单词与同义词集之间连接CREATE语句;(33)根据与对应的单词具有连接关系的所有同义词集,得到与所述连接关系不确定的单词结点具有连接关系的对应同义词集结点,进而单词结点的连接关系得到确定。一种语义检测方法,包括:输入:Neo4J数据库的单词表中确定两个待检测的字符串;过程:S1采用Cyper语句搜索比较字符串的所有词义,形成两组词义集合,进一步追踪词义属于的近似词集,并构成两个近义词集集合,检测每一对近义词集组合之间的语义关系;S2执行语法检测算法的波特词干提取算法,用于检测若干特殊的语义关系是否存在;S3检测两个比较字符串语义关系中的直接语义关系和迭代语义关系;S4若无法确定一对字符串间的语义关系,则执行语法检测的编辑距离算法,语义相似度的值由编辑距离算法测定;否则,语义关系值决定语义相似度;输出:两个比较字符串之间的语义相似度。进一步地,包括:所述直接语义关系包括:同根关系、同义关系、上位词关系、下位词关系、下位词关系、部分组成词、部分构件词、同等关系以及迭代上位词关系;迭代语义关系为对所述直接语义关系的嵌套。进一步地,包括:根据所述语义检测方法得到语义计算API;基于自定义可扩展的中间语言,实现扩展语义的计算。一种语义计算扩展接口生成方法,所述语义计算API包括直接语义检测接口detectDirectedRelation(WordPair)、限定直接语义检测接口detectDirectedRelation(WordPair,RType)、迭代语义检测detectIterativeRelation(WordPair)、限定迭代语义检测detectIterativeRelation(WordPair)、指定层数迭代语义检测detectIterativeRelation(WordPair,Set<RType>)、精确迭代语义检测detectIterativeRelation(WordPair,Times,Set<RType>)以及确定迭代语义检测detectIterativeRelation(WordPair,List<RType>),WordPair为待检测的两个字符串,RType为语义关系的类型。进一步地,包括:所述元模型中关键字分为连接词和限定词,所述限定词用于指定当前语句的确定功能,限定词包括:DETECT和SYNONYM,DETECT用来限定的包含某种关系的语句,其限定的语句中可以包含连接词TONODE、RETURN、WITHRTYPE,SYNONYM用来获得指定字符串的近亲短语。有益效果:(1)本专利技术采用基于WordNet语义关系网络实现了高效的语义计算,语义计算的实现上浮到了基于Cyper语言层,表达更加直观,使得语义计算可视化,并且映射到Neo4j的图结构,处理数据的速度更快;(2)本专利技术Neo4j的图结构的优化使得语义检测算法的实现过程中的查询从空间复杂度On^n降到了O1,可以实现在个人电脑上进行复杂关系推导;(3)利用中间语言模版方法,在一定程度上实现语义检测功能的可升级能力,该方法的实现证明了其它类似领域相似功能的可发展性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在本文档来自技高网...

【技术保护点】
1.一种WordNet到Neo4J的映射方法,其特征在于,包括:(1)提取同义词集合有效信息,并将其映射到Neo4J中的同义词集结点上;(2)采用广度优先算法遍历每个以特定关系相关连的两个同义词集结点,并生成相应的Neo4J同义词集结点之间的连接;(3)遍历WordNet中的所有单词和每个单词对应的义元集合,并基于义元集合实现单词到同义词集的绑定形成单词结点。

【技术特征摘要】
1.一种WordNet到Neo4J的映射方法,其特征在于,包括:(1)提取同义词集合有效信息,并将其映射到Neo4J中的同义词集结点上;(2)采用广度优先算法遍历每个以特定关系相关连的两个同义词集结点,并生成相应的Neo4J同义词集结点之间的连接;(3)遍历WordNet中的所有单词和每个单词对应的义元集合,并基于义元集合实现单词到同义词集的绑定形成单词结点。2.根据权利要求1所述的WordNet到Neo4J的映射方法,其特征在于,所述步骤(1)中,同义词集合有效信息包括:同义词集ID,以及对该同义词集的解释Gloss;所述将其映射到Neo4J同义词集结点,包括:通过WordNet解析引擎生成在Neo4J中生成同义词集结点的Cyper语句,并为每个同义词集结点生成固定的同义词集类型Synset,所述同义词集ID由Synset的对应lexical决定,每个同义词集结点具有与同义词集合对应的同义词集结点ID和说明属性Gloss,通过同义词集合的同义词集ID和同义词集结点ID确定唯一的同义词集结点。3.根据权利要求1所述的WordNet到Neo4J的映射方法,其特征在于,所述步骤(2)中,生成相应的Neo4J同义词集结点之间的连接,包括:以每个同义词集结点为起点,采用广度优先算法循环遍历所有与其具有直接语义关系的同义词集结点;借助API传入的同义词迭代器对象,构造MATCH子句、WHERE子句和CREATE子句,实现从Neo4J数据库中匹配并获得对应的同义词集结点的指针。4.根据权利要求3所述的WordNet到Neo4J的映射方法,其特征在于,所述直接语义关系为两个单词分别对应关联的同义词集之间存在的所有类型的语义关系,可包括:同根关系、同义关系、上位词关系、下位词关系、下位词关系、部分组成词、部分构件词、同等关系以及迭代上位词关系。5.根据权利要求1所述的WordNet到Neo4J的映射方法,其特征在于,所述步骤(3)具体包括:遍历WordNet中的单词,并迭代以下步骤,直到遍历所有的单词:(31)对应生成Neo4J中所述连接关系不确定的单词结点,所述单词结点为Word类型,并且具有lemma属性;(32)所述WordNet解析引擎根据义元集合中指向的同义词集的ID构建MATCH和WHERE语句,并基于此生成构建单词与同义词集之间连接CREATE语句;(33)根据与对应的单词具有连接关系的所有同义词集,得到与所述连接关系不确定的单词结点具有连接关系的对应同义词集结点,进而单词结点的连接关系得到确定。6.根据权利要求1-5任一项所述的WordNet到...

【专利技术属性】
技术研发人员:王铁鑫李文心曹静雯杨志斌周勇陶传奇
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1