Filtering method and device of the invention discloses a synonym, the method includes: second neighbor word generation first word first neighbor word set and the second set of words, the correlation between the first word and the first word in the set of neighbors meet preset requirements, the correlation with the second words the second nearest neighbor word set of word to meet the preset requirements; on the first nearest neighbor word set similarity set and the second neighbor words, won the first results; local feature matching of the first word and the second word, get second results; according to the first comparison result and the second comparison results, determine the first word and the second word is a synonym. The method and the device provided by the utility model can solve the technical problem of low precision in the prior art of synonym mining method. It effectively improves the accuracy of synonym mining.
【技术实现步骤摘要】
一种同义词的过滤方法及装置
本专利技术涉及互联网
,尤其涉及一种同义词的过滤方法及装置。
技术介绍
在搜索引擎中,用户查询项和文档之间往往会因为词语不匹配而不能查到相关文档,同义词可以用来解决同义词语不匹配的问题,搜索引擎需要大量的同义词、同义短语等扩大检索召回和提升搜索质量,故同义词词典是搜索引擎的重要基础数据,同义词挖掘也是搜索引擎的关键技术之一。传统的同义词挖掘方法主要为基于共同点击的挖掘方法,是利用用户的点击行为,如果各种不同的查询项点击了同一个文档,则将这些查询项对齐后,比对出不同的部分,作为潜在的同义词对。但这种挖掘方法会挖掘出大量的同位词、反义词等噪音词语,如“诸葛亮”和“郭嘉”、“人教版”和“北师版”等均为同位词,而不是同义词。可见,现有技术中的同义词挖掘方法存在准确率低的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的方法及装置。第一方面,本申请提供一种同义词的过滤方法,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。可选的,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合之前,还包括:挖掘出第一查询项和第二查询项,其中,所述第一查询项 ...
【技术保护点】
一种同义词的过滤方法,其特征在于,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。
【技术特征摘要】
1.一种同义词的过滤方法,其特征在于,包括:生成第一词的第一近邻词集合和第二词的第二近邻词集合,其中,所述第一词与所述第一近邻词集合中的词的相关性满足预设要求,所述第二词与所述第二近邻词集合中的词的相关性满足所述预设要求;比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果;比对所述第一词和所述第二词的局部特征,获得第二比对结果;根据所述第一比对结果和所述第二比对结果,确定所述第一词和所述第二词是否为同义词。2.如权利要求1所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合之前,还包括:挖掘出第一查询项和第二查询项,其中,所述第一查询项与所述第二查询项对应有相同的点击文档;比对所述第一查询项和所述第二查询项,从所述第一查询项和所述第二查询项中分别提取出所述第一词和所述第二词。3.如权利要求1或2所述的方法,其特征在于,所述生成第一词的第一近邻词集合和第二词的第二近邻词集合,包括:根据最邻近算法,生成第一词的第一近邻词集合和第二词的第二近邻词集合。4.如权利要求1-3任一所述的方法,其特征在于,所述比对所述第一近邻词集合与所述第二近邻词集合的相似度,获得第一比对结果,包括:根据拓补数据分析方法,生成所述第一近邻词集合的第一持续性图和所述第二近邻词集合的第二持续性图;计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果。5.如权利要求1-4任一所述的方法,其特征在于,所述计算所述第一持续性图和所述第二持续性图的相似度,以所述相似度作为所述第一比对结果,包括:计算所述第一持续性图和所述第二持续性图的环相似度和连通图相似度,以所述环相似度和所述连通图相似度作为所述第一比对结果。6.如...
【专利技术属性】
技术研发人员:庞伟,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。