寻找相近语义汉字对的方法和装置制造方法及图纸

技术编号:12587388 阅读:75 留言:0更新日期:2015-12-24 04:09
为了为快速高效且具有较高准确性地获取汉字相似度的汉字相似度提供基础数据,发明专利技术人披露了一种寻找相近语义汉字对的方法,包括如下步骤:从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对。发明专利技术人同时还提供了实现上述寻找相近语义汉字对的方法的装置。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种寻找相近语义汉字对的方法和 目.0
技术介绍
目前,在需要获取汉字的相似度时所采用的方法主要是基于根据汉字上下文进行判断的方法(如word2vec模型等),这种做法的核心思想是以汉字为基本单位进行训练,从而得到汉字的相似度。然而,在采用基于汉字上下文的方法(如word2vec模型等)存在一定的缺陷,主要体现在当一些语言单位出现频率较低时,通常准确性有限,无法得到令人满意结果。
技术实现思路
为此,需要提供一种快速高效且具有较高准确性的用于帮助获取汉字相似度的汉字相似性资源的技术方案。为实现上述目的,专利技术人提供了一种寻找相近语义汉字对的方法,包括如下步骤:从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4 ;判断Zl与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的方法中,判断Zl与Z3是否为相同汉字,如是则输出Z2和TA为相近语义汉字对;否则:判断是否Zl与Z2为相同汉字且Z3与TA为相同汉字,如是则输出Zl和Z3为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的方法中,判断是否Zl与Z2为相同汉字且Z3与TA为相同汉字,如是则输出Zl和Z3为相近语义汉字对,否则:根据预设的相近语义汉字对数据库比对Zl与Z3是否为相近语义汉字对,如是则输出Z2和TA为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的方法中,将输出的作为相近语义汉字对的Z2和TA保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。进一步地,所述的寻找相近语义汉字对的方法中,步骤“从给定的语料库中获取一待判单词”具体包括:从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。进一步地,所述的寻找相近语义汉字对的方法中,所述给定的语料库为经过分词或词性标注处理的语料库。专利技术人同时还提供了一种寻找相近语义汉字对的装置,包括待判单词获取单元、判断单元和输出单元;所述待判单词获取单元用于从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4 ;所述判断单元用于判断Zl与Z3是否为相同汉字,当判断单元判定Zl与Z3为相同汉字时,输出单元输出Z2和TA为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,判断单元还用于判断Zl与Z3是否为相同汉字,当判断单元判定Zl与Z3为不同汉字时判断单元判断是否Zl与Z2为相同汉字且Z3与TA为相同汉字,当判断单元判定Zl与Z2为相同汉字且Z3与TA为相同汉字时输出单元输出Zl和Z3为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,还包括存储单元,用于存储一预设的相近语义汉字对数据库;判断单元判定Zl与Z2为不同汉字或Z3与TA为不同汉字时,判断单元根据预设的相近语义汉字对数据库比对Zl与Z3是否为相近语义汉字对,当判断单元判定Zl与Z3为相近语义汉字对时,输出单元输出Z2和TA为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,输出单元将输出的作为相近语义汉字对的Z2和TA保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。进一步地,所述的寻找相近语义汉字对的装置中,待判单词获取单元从给定的语料库中获取一待判单词具体包括:从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。进一步地,所述的寻找相近语义汉字对的装置中,所述给定的语料库为经过分词或词性标注处理的语料库。区别于现有技术,上述技术方案可以为快速高效且具有较高准确性地获取汉字相似度的汉字相似度提供帮助。【附图说明】图1为本专利技术一实施方式所述寻找相近语义汉字对的方法的流程图;图2为本专利技术一实施方式所述寻找相近语义汉字对的装置的结构示意图。附图标记说明:1-待判单词获取单元2-判断单元3-输出单元4-存储单元【具体实施方式】为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。请参阅图1,为本专利技术一实施方式所述寻找相近语义汉字对的方法的流程图;所述方法包括如下步骤:S1、从给定的语料库中获取一待判单词;所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4 ;优选地,从给定的语料库中获取待判单词又可以采用如下方法:从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。实际上,还可以采用其他方法判断和优选由四个汉字组成的字组是否为一个具有提取意义的待判单词。进一步地,本步骤中所述的“给定的语料库”实际上可以是普通语料库,如一篇文章或一段文字,对其进行分次或词性标注处理,从而使得获取待判单词的步骤变得更简单。当然,所述给定的语料库也可以是已经经过分词或词性标注处理的语料库。S2、判断Zl与Z3是否为相同汉字,如是则输出Z2和TA为相近语义汉字对,否则进入步骤S3 ;S3、判断是否Zl与Z2为相同汉字且Z3与Z4为相同汉字,如是则输出Zl和Z3为相近语义汉字对,否则进入步骤S4 ;S4、根据预设的相近语义汉字对数据库比对Zl与Z3是否为相近语义汉字对,如是则输出Z2和TA为相近语义汉字对。进一步地,在步骤S2、S3、S4中,在输出Zl和Z3,或者Z2和Z4作为相近语义汉字对时,同时将其Zl和Z3或者Z2和TA作为获得的相近语义汉字对保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。请参阅图2,为本专利技术一实施方式所述寻找相近语义汉字对的装置的结构示意图;所述装置包括待判单词获取单元1、判断单元2和输出单元3 ;所述待判单词获取单元I用于从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4 ;所述判断单元2用于判断Zl与Z3是否为相同汉字,当判断单元2判定Zl与Z3为相同汉字时,输出单元3输出Z2和TA为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,判断单元2还用于判断Zl与Z3是否为相同汉字,当判断单元2判定Zl与Z3为不同汉字时判断单元2判断是否Zl与Z2为相同汉字且Z3与TA为相同汉字,当判断单元2判定Zl与Z2为相同汉字且Z3与Z4为相同汉字时输出单元3输出Zl和Z3为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,还包括存储单元4,用于存储一预设的相近语义汉字对数据库;判断单元2判定Zl与Z2为不同汉字或Z3与TA为不同汉字时,判断单元2根据预设的相近语义汉字对数据库比对Zl与Z3是否为相近语义汉字对,当判断单元2判定Zl与Z3为相近语义汉字对时,输出单元3输出Z2和TA为相近语义汉字对。进一步地,所述的寻找相近语义汉字对的装置中,输出单元3将输出的作为相近语义汉字对的Z2和TA保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库,预设的相近语义汉字对数据库或新建的相近语义汉字对数据库均位于存储单元4中。进一步地,所述的寻找相近语义汉字对的装置中,待判单词获取单元I从本文档来自技高网
...

【技术保护点】
一种寻找相近语义汉字对的方法,其特征在于,包括如下步骤:从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐戈晁阳关胤吴拥民刘德建
申请(专利权)人:福建天晴数码有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1