一种同义词的过滤方法及装置制造方法及图纸

技术编号:15329864 阅读:80 留言:0更新日期:2017-05-16 13:27
本发明专利技术公开一种同义词的过滤方法及装置,该方法包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。本申请提供的方法及装置能解决现有技术中的同义词挖掘方法存在的准确率低的技术问题。有效提高了同义词挖掘的准确率。

Method and device for filtering synonyms

Filtering method and device of the invention discloses a synonym, the method includes: second neighbor word generation first word first neighbor word set and the second set of words, the correlation between the first word and the first word in the set of neighbors meet preset requirements, the correlation with the second words the second nearest neighbor word set of word to meet the preset requirements; on the first nearest neighbor word set similarity set and the second neighbor words, won the first results; local feature matching of the first word and the second word, get second results; according to the first comparison result and the second comparison results, determine the first word and the second word is a synonym. The method and the device provided by the utility model can solve the technical problem of low precision in the prior art of synonym mining method. It effectively improves the accuracy of synonym mining.

【技术实现步骤摘要】
一种同义词的过滤方法及装置
本专利技术涉及互联网
,尤其涉及一种同义词的过滤方法及装置。
技术介绍
在搜索引擎中,用户查询项和文档之间往往会因为词语不匹配而不能查到相关文档,同义词可以用来解决同义词语不匹配的问题,搜索引擎需要大量的同义词、同义短语等扩大检索召回和提升搜索质量,故同义词词典是搜索引擎的重要基础数据,同义词挖掘也是搜索引擎的关键技术之一。传统的同义词挖掘方法主要为基于共同点击的挖掘方法,是利用用户的点击行为,如果各种不同的查询项点击了同一个文档,则将这些查询项对齐后,比对出不同的部分,作为潜在的同义词对。但这种挖掘方法会挖掘出大量的同位词、反义词等噪音词语,如“诸葛亮”和“郭嘉”、“人教版”和“北师版”等均为同位词,而不是同义词。可见,现有技术中的同义词挖掘方法存在准确率低的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的方法及装置。第一方面,本申请提供一种同义词的过滤方法,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。可选的,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合之前,还包括:挖掘出第一查询项和第二查询项,其中,所述第一查询项与所述第二查询项对应有相同的点击文档;比对所述第一查询项和所述第二查询项,从所述第一查询项和所述第二查询项中分别提取出所述第一词和所述第二词。可选的,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合,包括:根据最邻近算法,生成第一词的第一近邻词集合和第二词的第二近邻词集合。可选的,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:根据拓补数据分析方法,生成所述第一近邻词集合的第一持续性图和所述第二近邻词集合的第二持续性图;计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果。可选的,所述计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果,包括:计算所述第一持续性图和所述第二持续性图的环相似度和连通图相似度,以所述环相似度和所述连通图相似度作为所述第一比对结果。可选的,所述根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词,包括:当所述环相似度小于等于预设环相似度值,所述连通图相似度小于等于预设连通图相似度,且所述第二比对结果符合预设条件时,所述第一词和所述第二词为同义词。可选的,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:计算所述第一近邻词集合与所述第二近邻词集合的杰卡德相似度,以所述杰卡德相似度作为所述第一比对结果。可选的,所述比对所述第一词和所述第二词的局部特征,获得第二比对结果,包括:判断所述第一词和所述第二词是否包括相同的字符串,和/或判断所述第一词和所述第二词是否包括已确定为同义词的字符串,获得第二比对结果。可选的,所述根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词,包括:当所述第二比对结果为是,且所述第一比对结果满足预设范围时,所述第一词和所述第二词为同义词。第二方面,本申请提供一种同义词的过滤装置,包括:生成模块,用于生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;第一比对模块,用于比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;第二比对模块,用于比对所述第一词和所述第二词的局部特征,获得第二比对结果;确定模块,用于根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。可选的,所述装置还包括:挖掘模块,用于挖掘出第一查询项和第二查询项,其中,所述第一查询项与所述第二查询项对应有相同的点击文档;提取模块,用于比对所述第一查询项和所述第二查询项,从所述第一查询项和所述第二查询项中分别提取出所述第一词和所述第二词。可选的,所述生成模块还用于:根据最邻近算法,生成第一词的第一近邻词集合和第二词的第二近邻词集合。可选的,所述第一比对模块还用于:根据拓补数据分析方法,生成所述第一近邻词集合的第一持续性图和所述第二近邻词集合的第二持续性图;计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果。可选的,所述第一比对模块还用于:计算所述第一持续性图和所述第二持续性图的环相似度和连通图相似度,以所述环相似度和所述连通图相似度作为所述第一比对结果。可选的,所述确定模块还用于:当所述环相似度小于等于预设环相似度值,所述连通图相似度小于等于预设连通图相似度,且所述第二比对结果符合预设条件时,所述第一词和所述第二词为同义词。可选的,所述第一比对模块还用于:计算所述第一近邻词集合与所述第二近邻词集合的杰卡德相似度,以所述杰卡德相似度作为所述第一比对结果。可选的,所述第二比对模块还用于:判断所述第一词和所述第二词是否包括相同的字符串,和/或判断所述第一词和所述第二词是否包括已确定为同义词的字符串,获得第二比对结果。可选的,所述确定模块还用于:当所述第二比对结果为是,且所述第一比对结果满足预设范围时,所述第一词和所述第二词为同义词。本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本申请实施例提供的方法及装置,结合词语对中各个词的邻近词集合的相似度情况和词语对本身的局部特征情况,来综合的判断所述词语对是否为同义词对,有效的提升了同义词挖掘的准确率,进一步,该方法可以与当前的各种同义词挖掘方法结合使用,可扩展性好。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中同义词的过滤方法的流程图;图2为本专利技术实施例中“安徽”和“安徽省”两个词近邻词集合的两维平面图;图3为本专利技术实施例中“朝晖”和“曙光”两个词近邻词集合的两维平面图;图4为本专利技术实施例中拓扑特征的生存期示意图;图5为本专利技术实施例中“县令”的近邻词集合的拓扑特征可视化图;图6为本专利技术实施例中“知县”的近邻词集合的拓扑特征可视化图;图7为本专利技术实施例中“麻雀”的近邻词集合的拓扑特征可视化图;图8为本专利技术实施例中“金丝雀”的近邻词集合的拓扑特征可视化图;图9为本专利技术实施例中查询项对齐示意图;图10为本专利技术实施例中同义词的过滤装置的结构示意图。本文档来自技高网...
一种同义词的过滤方法及装置

【技术保护点】
一种同义词的过滤方法,其特征在于,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。

【技术特征摘要】
1.一种同义词的过滤方法,其特征在于,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。2.如权利要求1所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合之前,还包括:挖掘出第一查询项和第二查询项,其中,所述第一查询项与所述第二查询项对应有相同的点击文档;比对所述第一查询项和所述第二查询项,从所述第一查询项和所述第二查询项中分别提取出所述第一词和所述第二词。3.如权利要求1或2所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合,包括:根据最邻近算法,生成第一词的第一近邻词集合和第二词的第二近邻词集合。4.如权利要求1-3任一所述的方法,其特征在于,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:根据拓补数据分析方法,生成所述第一近邻词集合的第一持续性图和所述第二近邻词集合的第二持续性图;计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果。5.如权利要求1-4任一所述的方法,其特征在于,所述计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果,包括:计算所述第一持续性图和所述第二持续性图的环相似度和连通图相似度,以所述环相似度和所述连通图相似度作为所述第一比对结果。6.如...

【专利技术属性】
技术研发人员:庞伟
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1