The invention discloses a recognition method and recognition device for synonyms to improve the accuracy of the synonym recognition and improve the user's query experience. The method is: to belong to the same category of the first word and second word segmentation, word segmentation and calculation between the first second word address similarity and literal similarity, according to the similarity and literal similarity calculation, comprehensive similarity between the first and second word segmentation, to determine the comprehensive similarity is not less than the preset threshold value, and determine whether the first word second words are synonyms of each other. Thus, considering the address similarity and the word similarity between the two participles, we can make the calculated comprehensive similarity more accurate, and then make the identification result of synonyms more accurate. Moreover, the accuracy of the synonym recognition is further improved by calculating the comprehensive similarity between the two participles belonging to the same category.
【技术实现步骤摘要】
一种同义词的识别方法及识别装置
本专利技术涉及计算机
,尤其涉及一种同义词的识别方法及识别装置。
技术介绍
同义词,不仅表征意义相同或相近的词语,还表征意义相关的词语。比如:“土豆”和“马铃薯”是意义相同的同义词,“严格”和“严厉”是意义相近的同义词,“就业”和“招聘”是意义相关的同义词,等等。实际应用中,在互联网领域,特别是在查询搜索领域,同义词的挖掘是一项非常重要的工作,它的实现对于深层理解用户输入的查询信息,丰富查询结果,以及为用户提供更好的查询体验有很大的帮助。目前,获取同义词的方法主要有两种手段,一种是通过语言专家根据词语积累编写同义词库,另一种是采用语义分析技术识别词语的相关度,自动挖掘同义词。由于人工获取同义词需要耗费大量的人力资源和物力资源,效率也比较低,所以,根据语义分析自动识别同义词的方式越来越普遍。现有技术中,提出了以下两种同义词自动识别方法:第一种方法:确定需要识别的两个中文词之间的最小编辑距离小于等于编辑距离阈值后,通过判断这两个中文词是否都存在与预设的同义词库中,来判断这两个中文词是否为同义词。第二种方法:先将查询日志中的每项查询 ...
【技术保护点】
一种同义词的识别方法,其特征在于,包括:针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度;其中,所述地址相似度表征所述第一分词对应的第一用户点击查询结果地址集合与所述第二分词对应的第二用户点击查询结果地址集合之间的相似度;计算所述第一分词与所述第二分词之间的字面相似度;其中,所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度;基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度;确定所述综合相似度不小于预设阈值时,判定所述第一分词与所述第二分词互为同义词。
【技术特征摘要】
1.一种同义词的识别方法,其特征在于,包括:针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度;其中,所述地址相似度表征所述第一分词对应的第一用户点击查询结果地址集合与所述第二分词对应的第二用户点击查询结果地址集合之间的相似度;计算所述第一分词与所述第二分词之间的字面相似度;其中,所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度;基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度;确定所述综合相似度不小于预设阈值时,判定所述第一分词与所述第二分词互为同义词。2.如权利要求1所述的识别方法,其特征在于,针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度之前,进一步包括:采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于所述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。3.如权利要求1或2所述的识别方法,其特征在于,计算所述第一分词与所述第二分词之间的地址相似度,包括:基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,所述第一查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,所述第二查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间所有查询结果地址的总和;基于所述第一查询结果地址总数和所述第二查询结果地址总数,计算所述第一分词与所述第二分词之间的地址相似度。4.如权利要求1或2所述的识别方法,其特征在于,计算所述第一分词与所述第二分词之间的字面相似度,包括:统计所述第一字符组与所述第二字符组之间所有相同字符,基于统计的所有相同字符,确定所述第一分词与所述第二分词之间的相同字符总数;基于所述第一字符组包含的第一字符总数和所述第二字符组包含的第二字符总数,确定所述第一字符总数与所述第二字符总数之间的最少字符总数,基于所述相同字符总数和所述最少字符总数,计算所述第一分词与所述第二分词之间的字面相似度。5.如权利要求1-4任一项所述的识别方法,其特征在于,基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度,包括:确定表征所述地址相似度权重的第一常数和表征所述字面相似度权重的第二常数,其中,所述第一常数与所述第二常数之和为1;基于所述地址相似度和所述第一常数,以及所述字面相似度和所述第二常数,计算所述第一分词与所述第二分词之间的综合相似度。6.一种同义词的识别装置,其特征在于,包括:第一计算单元,用于针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二...
【专利技术属性】
技术研发人员:郑婷婷,毕娅娜,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。