【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及用于确定字符串信息间相似度信息的方法、装置和设备。
技术介绍
确定字符串信息间的相似度一直是自然语言处理中重要的一部分。现有技术中, 往往仅基于一个方面来确定字符串信息间的相似度,例如,仅基于编辑距离来确定两个字符串信息间的字形相似度,又例如,往往仅基于同义词词典来判断两个字符串信息间的语义相似度等,该等确定字符串信息间相似度的方法往往难以全面地反映两个字符串间的相似度。
技术实现思路
本专利技术的目的是提供一种用于确定字符串信息间相似度信息的方法、装置和设备。根据本专利技术的一个方面,提供一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a获取待处理的两个字符串信息;b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。根据本专利技术的另一个方面,还提供了一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。根据本专利技术的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括前述相似度确定装置。与现有技术相比,本专利技术具有以下优点1)能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确;2)通过结合各个类型对应的权重信 ...
【技术保护点】
1.一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤:a获取待处理的两个字符串信息;b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
【技术特征摘要】
1.一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a获取待处理的两个字符串信息;b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。2.根据权利要求1所述的方法,其中,该方法还包括以下步骤 i获取所述至少两种类型中每种类型所对应的权重信息;其中,所述步骤b还包括-根据所述基于所述两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。3.根据权利要求2所述的方法,其中,所述步骤i还包括以下步骤 il获取所述最终相似度信息的应用环境信息; 2根据所述应用环境信息,确定所述每种类型所对应的权重信息。4.根据权利要求3所述的方法,其中,所述步骤i2还包括以下步骤 -根据所述应用环境信息,由所有类型中选择所述至少两种类型;-根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重 fn息ο5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b还包括以下步骤bl对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息;b2根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。6.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤_获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式;_根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度 fn息;-根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。7.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤 b21由所述两个字符串信息中获取当前子串组合对信息;b22获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;b23根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;b24将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤 b21至步骤b23以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。8.根据权利要求5至7中任一项所述的方法,其中,该方法还包括以下步骤 -获取所述两个字符串信息间至少一种类型的整体相似度信息;其中,所述步骤b2还包括以下步骤_根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。9.根据权利要求1至8中任一项所述的方法,其中,所述至少两种类型包括以下各项中的任意至少两种-编辑距离类型; -读音类型; -同义词匹配类型; -短文本扩展类型; -字符串特征向量类型; -主题分布类型。10.根据权利要求9所述的方法,其中,所述至少两种类型包括编辑距离类型,其中,该方法还包括以下步骤_根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。11.根据权利要求9或10所述的方法,其中,所述至少两种类型包括字符串特征向量类型,其中,该方法还包括以下步骤_根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。12.根据权利要求9至11中任一项所述的方法,其中,所述至少两种类型包括主题分布类型,该方法还包括以下步骤_根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。13.一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。14.根据权利要求13所述的...
【专利技术属性】
技术研发人员:何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。