【技术实现步骤摘要】
一种词语相似度计算方法、装置以及存储介质
本专利技术涉及相似度计算领域,特别是涉及一种词语相似度计算方法。
技术介绍
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是自然语言的基础研究课题,正在被越来越多的研究人员所关注。对于同一种东西,不同行业、不同地区可能会有多种叫法,举例来讲,由于汽配行业内部的沟通局限在小范围内,而且汽配行业的从业人员水平参差,在不同的小范围的沟通中,对同一个配件常常产生出许多不同的叫法。而从宏观来看,在不同的小范围或者小群体里,极有可能有一个叫法,被用来形容不同的配件,比如“前杠下护板”,可能在A市某些汽修厂与供应商之间,会用来表示“前保险杠下护板”这种配件,而在B市的某些汽修厂与供应商之间,则会用这个名称来称呼“发动机下护板(前)”这种配件。一个配件的标准的名称通常称为“主名”(如刚才说的“前保险杠下护板”、“发动机下护板(前)”),随之会衍生出的许多不同叫法(如刚才说的“前杠下护板”)通常称为“别名”。由于行业的这个特点, ...
【技术保护点】
1.一种词语相似度计算方法,其特征在于,包括:/n获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;/n利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;/n所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。/n
【技术特征摘要】
1.一种词语相似度计算方法,其特征在于,包括:
获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
2.如权利要求1所述词语相似度计算方法,其特征在于,所述预设词语相似度算法包括:
其中,Siou表示所述第一词语和所述第二词语的交并比,Sl表示所述第一词语与所述第二词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
3.如权利要求1所述词语相似度计算方法,其特征在于,所述获取第一词语和第二词语的交并比包括:
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间不同的字符的个数。
4.如权利要求1所述词语相似度计算方法,其特征在于,所述第一词语的长度Sl包括:
Sl=count(Wm)
其中,count(Wm)为所述第一词语中字符的总数,用来表征长度。
5.如权利要求1所述词语相似度计算方法,其特征在于,所述第二词语的文字在所述第一词语的聚合度包括:
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa...
【专利技术属性】
技术研发人员:曾万贵,黄俊钧,
申请(专利权)人:广州市巴图鲁信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。