一种知识驱动的英汉单词语义相似度自动检测方法技术

技术编号:22167243 阅读:21 留言:0更新日期:2019-09-21 10:43
本发明专利技术公开了一种知识驱动的英汉单词语义相似度自动检测方法,包括如下步骤:步骤1、基于Eclipse的MongoDB JDBC驱动,在本地MongoDB中建立数据库并建立collection,将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中;步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系,对分析出来的数据关系进行加工处理,实现关系值的量化计算;步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面,提供输入和输出接口。本发明专利技术通过对“HowNet”中词语的概念进行分析、比较,实现词语的准确定义;在尽量降低人工参与的情况下,减少因自然语言二义性而产生的理解错误,能够更准确地比较和区分词语间的语义关系。

A Knowledge-driven Automatic Method for Semantic Similarity Detection of English and Chinese Words

【技术实现步骤摘要】
一种知识驱动的英汉单词语义相似度自动检测方法
本专利技术涉及自然语言处理领域,具体涉及一种知识驱动的英汉单词语义相似度自动检测方法。
技术介绍
在大数据时代,数据和信息处理是各个领域的共同关注点。效率和智能是处理过程的两个关键。而随着经济的发展,企业为了谋求更好的发展,需要与其他企业进行合作,因为相互合作的企业之间需要进行数据共享,从而各自的内部系统之间需要进行通信,共享和集成。不同的企业使用不同的系统,具有不同内容的信息系统,需要识别正误、消除冗余、合并相同类型、然后以统一数据的形式生成有价值的信息。SethGrimes曾说“80%的商业信息来自非结构化数据,主要是文本分析”。系统之中的部分文本信息例如行政信息,需求文档等由相应人员采用自然语言进行编写,自然语言具有二义性,在传达以及执行相应任务存在理解失误性导致巨大的经济损失。所以对这些共享和传达的文本信息需要进行语义分析,给出准确的语义。自然语言使用词语作为基本单位。词语可以形成句子,句子形成章节。因此,文本的语义由所包含的所有句子的语义合成,而句子的语义由词语和某些语法的语义决定。作为句子和文本的基本单位,这些词语具有特定的语义和内涵。语义分析是NLU(自然语言理解)的基本问题,它在NLP(自然语言处理)、信息检索、信息过滤、信息分类和语义挖掘中具有广泛的应用。NLP是一门集语言学,计算机科学和数学于一体的科学。具有丰富NLP信息的大型计算机可用字典的重要性是显而易见的。为了提高NLP技术的效率,有必要创建大规模的知识资源,包括机器可处理的字典。目前,有几个现有的大型知识库。与其他知识库相比例如WordNet和FrameNet,HowNet强调概念之间的关系,属性与概念属性之间的关系。作为一个双语(英—汉)知识库,HowNet为设计真正的智能软件提供了知识,总记录超过120,000,而且还在不断扩大。关于HowNet首先需要解释两个概念“义原”和“定义”。“义原”是无法分割的最小意义单位,选择义原的原则是现有义原必须能够描述所有概念。而“定义”是一个由一些义原组成的概念,用于描述词语。语义词典和义原分类树是HowNet的基本文件。语义词典由许多记录组成,包含单词的中英文翻译,词性和词的定义。每条记录都是英文和中文双语,包含每个单词含义的概念和描述,但HowNet的语义词典不仅仅是复制英汉词典,每个词的定义的选择和制定都是基于当前的流行度。MongoDB是关系数据库和非关系数据库之间的产品。它是非关系数据库中功能最多,关系最密切的数据库。MongoDB在数据存储和查询方面有两个基本优势。首先,它支持的数据结构非常宽松——类似于JSON的BSON格式,因此它可以存储更复杂的数据类型。其次,它支持一种非常强大的查询语言,其语法与面向对象的查询语言类似。它可以实现关系数据库单表查询的几乎所有功能,并且还支持索引数据。为了检测词(对象)概念之间的语义相似性,本文提出了一种名为SSDH的方法(基于HowNet的语义相似度检测)。SSDH建立在HowNet知识库的基础之上,且借助MongoDB和Eclipse两个软件实现工具。与现有的基于HowNet开发的词语语义相似度方法相比,SSDH使用了数据库MongoDB,使数据检索更快,并且公式的定义减少了人工设置的参数,使计算结果更具公平性。此外由于HowNet的特点,该工具可以直接比较中英文的语义相似度。
技术实现思路
专利技术目的:为了解决现有技术存在的问题,本专利技术的目的是提供一种知识驱动的英汉单词语义相似度自动检测方法,用于在文本分析等异构数据处理中避免两个词语因为自然语言的二义性而造成的概念模糊。技术方案:一种知识驱动的英汉单词语义相似度自动检测方法,包括以下步骤:步骤1、基于Eclipse的MongoDBJDBC驱动,在本地MongoDB中建立数据库并建立collection,将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中;步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系,对分析出来的数据关系进行加工处理,实现关系值的量化计算;步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面,提供输入和输出接口。所述步骤2具体包括如下内容:步骤2.1、根据词语在语义词典中的定义,分析HowNet的最基本文件的存储集合semanticdictionary;步骤2.2、对MongoDB中存储的atomtree集合进行分析;步骤2.3、进行数据处理。进一步的,所述步骤2.1中,词语在语义词典中的定义包括以下三种情况:如果两个词语的定义完全一样,则是同义词;如果两个词语的定义是部分相同的或者存在包含关系,则存在相似性;如果两个词语的定义毫无相同,则没有关系。进一步的,所述步骤2.3中,定义两个词语Word1、Word2;所述Word1含有m个义项:def1,def2,……,defm,构成集合DEF1;所述Word2含有n个义项:def1,def2,……,defn,构成集合DEF2;每个DEF集合中的重复def算作一个,每个def由不定数的义原atomi’组成一个集合;步骤2.3.1、将Word1的DEF1集合和Word2的DEF2集合进行比较,计算出相同的def占DEF集合的势的比率;步骤2.3.2、去除两个DEF集合中的相同的def(步骤2.3.1中找出的),将DEF1中剩下的每一条def分别与DEF2剩下的每一条def进行比较,在任意对def集合中,首先比较主属性即第一个atom是否相同,如果相同,给定主属性的相似度为1,否则为0;步骤2.3.3、对每对def集合中的atom(去除第一个atom后剩下的),计算相同的atom的占比和其余的atom之间的相似度,将主属性的相似度、相同atom的占比和其余atom之间的相似度加权计算得到每对def集合的相似度;步骤2.3.4、对于不同的部分给相应的权重,使得结果在0~1的范围内。更进一步的,所述步骤3中工具包括precount包和connect包。其中,所述precount包包括Treecount类和TreeHigh类。所述connect包包括ConnectMongoDB类、GetDocument_HowNet接口、GetDocument_Atom接口、SimAtom_Eng_Chi类、SimWord类和Tool类。有益效果和现有技术相比,本专利技术具有如下显著进步:本方法建立在知识库“HowNet”之上,兼具中文和英文双语语义分析的功能。提取“HowNet”中的语义相关知识,存储在非关系型数据库“MongoDB”中,利用“MongoDB”自身优点,提升大量数据查询、管理及维护的效率。本方法通过对“HowNet”中词语的概念进行分析、比较,实现词语的准确定义;在尽量降低人工参与的情况下,减少因自然语言二义性而产生的理解错误,能够更准确地比较和区分词语间的语义关系。附图说明图1为MongoDB存入语义词典的过程示意图;图2为HowNet语义词典关于“偶然性”词语的记录整理;图3为HowNet的义原分类树部分;图4为数据处理的流程图;图5为实现工具界面截图。具体实施方式本专利技术的一种知识驱动的英汉本文档来自技高网
...

【技术保护点】
1.一种知识驱动的英汉单词语义相似度自动检测方法,其特征在于,包括如下步骤:步骤1、基于Eclipse的MongoDB JDBC驱动,在本地MongoDB中建立数据库并建立collection,将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中;步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系,对分析出来的数据关系进行加工处理,实现关系值的量化计算;步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面,提供输入和输出接口。

【技术特征摘要】
1.一种知识驱动的英汉单词语义相似度自动检测方法,其特征在于,包括如下步骤:步骤1、基于Eclipse的MongoDBJDBC驱动,在本地MongoDB中建立数据库并建立collection,将HowNet数据库中的语义词典和义原分类树二次加工导入到MongoDB中;步骤2、人工分析MongoDB中的数据即语义词典和义原分类树中的词之间的关系,对分析出来的数据关系进行加工处理,实现关系值的量化计算;步骤3、基于Eclipse的WindowBuilder插件为工具提供可视化应用界面,提供输入和输出接口。2.根据权利要求1所述的英汉单词语义相似度自动检测方法,其特征在于,所述步骤2具体包括如下内容:步骤2.1、根据词语在语义词典中的定义,分析HowNet的最基本文件的存储集合semanticdictionary;步骤2.2、对MongoDB中存储的atomtree集合进行分析;步骤2.3、进行数据处理。3.根据权利要求2所述的英汉单词语义相似度自动检测方法,其特征在于,所述步骤2.1中,词语在语义词典中的定义包括以下三种情况:如果两个词语的定义完全一样,则是同义词;如果两个词语的定义是部分相同的或者存在包含关系,则存在相似性;如果两个词语的定义毫无相同,则没有关系。4.根据权利要求2所述的知识驱动的计算英汉单词语义相似度的方法,其特征在于,所述步骤2.3中,定义两个词语Word1、Word2;所述Word1含有m个义项:def1,def2,……,defm,构成集合DEF1;所述Word2含有n个义项:...

【专利技术属性】
技术研发人员:王铁鑫曹静雯李文心
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1