相似性确定方法、装置及终端制造方法及图纸

技术编号:13107561 阅读:53 留言:0更新日期:2016-03-31 13:14
本公开关于一种相似性确定方法、装置及终端,属于自然语言处理领域。包括:分别对第一字符串和第二字符串进行分词,得到分别包括至少一个词的第一序列和第二序列;根据预先定义的编辑距离算法及第一序列和第二序列确定第一字符串和第二字符串时之间的编辑距离;根据编辑距离及由第一序列向第二序列变换所做的各操作的信息确定第一字符串与第二字符串之间的相似性。通过将第一字符串和第二字符串分词为第一序列和第二序列,使在确定编辑距离时,是基于字符串中的词实现的,而并非基于字符串中的字符实现的,而字符串中的各个词可能包括至少一个字符,从而使根据编辑距离确定的相似性结合了字符串中各个字符之间的相关性,使确定的相似性更准确。

【技术实现步骤摘要】

本公开涉及自然语言处理领域,特别涉及一种相似性确定方法、装置及终端
技术介绍
在自然语言处理领域,字符串之间的相似性确定方法是一个基本问题,其可以被应用于很多场景,如文本聚类、信息检索等。因此,如何确定字符串之间的相似性,受到研究人员的广泛关注。相关技术在确定字符串之间的相似性时,可以通过计算两个之间的编辑距离来实现。具体地,可以分别将这两个字符串分词为各个字符;然后,通过对一个字符串中的字符进行删除操作、插入操作或替换操作,从而将一个字符串变换为另一个字符串;接下来,计算由一个字符串变换为另一个字符串需要的最小操作次数,将该最小操作次数作为这两个字符串之间的编辑距离;最后,根据编辑距离计算这两个字符串之间的相似性。
技术实现思路
本公开提供一种相似性确定方法、装置及终端。根据本公开实施例的第一方面,提供一种相似性确定方法,所述方法包括:分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距尚;根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性。根据本公开的第二方面,提供一种相似性确定装置,所述装置包括:分词模块,用于分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;第一确定模块,用于根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距离;第二确定模块,用于根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性。根据本公开的第三方面,提供一种终端,所述终端包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距1? ;根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性。本公开的实施例提供的技术方案可以包括以下有益效果:通过分别将第一字符串和第二字符串分词为第一序列和第二序列,使得在确定由第一字符串变换为第二字符串时的编辑距离时,是基于第一序列及第二序列中的各个词实现的,而并非基于第一字符串和第二字符串中的各个字符实现的,而字符串中的各个词可能包括至少一个字符,从而使得根据编辑距离确定的相似性结合了字符串中各个字符之间的相关性,使得确定的相似性更加准确。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。【附图说明】此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种相似性确定方法的流程图。图2是根据一示例性实施例示出的一种相似性确定方法的流程图。图3是根据一示例性实施例示出的一种相似性确定装置的框图。图4是根据一示例性实施例示出的一种第二确定模块的框图。图5是根据一示例性实施例示出的一种第二确定单元的框图。图6是根据一示例性实施例示出的一种第二确定单元的框图。图7是根据一示例性实施例示出的一种相似性确定装置的框图。图8是根据一示例性实施例示出的一种相似性确定装置的框图。图9是根据一示例性实施例示出的一种相似性确定装置的框图。图10是根据一示例性实施例示出的一种终端的框图。图11是根据一示例性实施例示出的一种服务器的框图。【具体实施方式】这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在自然语言处理领域,字符串之间的相似性确定方法是一个基本问题,其可以被应用于很多场景,如文本聚类、信息检索等。为了使得确定的两个字符串之间的相似性更加准确,本公开实施例提供了一种相似性确定方法。图1是根据一示例性实施例示出的一种相似性确定方法的流程图,本公开实施例提供的相似性确定方法可以用于终端中。如图1所示,本公开实施例提供的相似性确定方法包括以下步骤。在步骤S101中,分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,其中,第一序列和第二序列分别包括至少一个词。在步骤S102中,根据预先定义的编辑距离算法及第一序列和第二序列,确定第一字符串和第二字符串之间的编辑距离。在步骤S103中,根据编辑距离及由第一序列向第二序列变换所做的各操作的信息,确定第一字符串与第二字符串之间的相似性。本公开实施例提供的方法,通过分别将第一字符串和第二字符串分词为第一序列和第二序列,使得在确定由第一字符串变换为第二字符串时的编辑距离时,是基于第一序列及第二序列中的各个词实现,而并非基于第一字符串和第二字符串中的各个字符实现的,而字符串中的各个词可能包括至少一个字符,从而使得根据编辑距离确定的相似性结合了字符串中各个字符之间的相关性,使得确定的相似性更加准确。在另一个实施例中,根据编辑距离及由第一序列向第二序列变换所做的各操作的信息,确定第一字符串与第二字符串之间的相似性,包括:获取由第一序列向第二序列变换时所进行的各操作信息中的替换操作信息;根据各替换操作信息确定配对数,其中,配对数是指同时存在于第一序列和第二序列中的两个词的个数;根据编辑距离、配对数及各操作的操作代价、第一序列中的词个数、第二序列中的词个数,确定第一字符串与第二字符串之间的相似性。在另一个实施例中,根据编辑距离、配对数及各操作的操作代价、第一序列中的词个数、第二序列中的词个数,确定第一字符串与第二字符串之间的相似性,各操作包括替换操作、交换操作,包括:根据编辑距离、配对数及替换操作的操作代价、交换操作的操作代价,确定第一字符串与第二字符串之间的最小语义编辑距离;对最小语义编辑距离进行归一化,得到归一化结果;根据归一化结果确定第一字符串与第二字符串之间的相似性。在另一个实施例中,根据编辑距离、配对数及各操作的操作代价、第一序列中的词个数、第二序列中的词个数,确定第一字符串与第二字符串之间的相似性,各操作包括替换操作、交换操作、插入操作、删除操作中的至少其中之一,包括:根据编辑距离、配对数及替换操作的操作代价、交换操作的操作代价,确定第一字符串与第二字符串之间的第一语义编辑距离;根据插入操作的操作代价和删除操作的操作代价中的一个、替换操作的操作代价及第一序列中的词个数、第二序列中的词个数,确定第一字符串与第二字符串之间的第二语义编辑距离;根据第一语义编辑距离和第二语义编辑距离,确定第一字符串与第二字符串之间的相似性。在另一个实施例中,方法还包括:根据替换操作与交换操作之间的关系,确定替换操作的操作代价及交本文档来自技高网...

【技术保护点】
一种相似性确定方法,其特征在于,所述方法包括:分别对第一字符串和第二字符串进行分词,得到第一序列和第二序列,所述第一序列和所述第二序列分别包括至少一个词;根据预先定义的编辑距离算法及所述第一序列和所述第二序列,确定所述第一字符串和所述第二字符串之间的编辑距离;根据所述编辑距离及由所述第一序列向所述第二序列变换所做的各操作的信息,确定所述第一字符串与所述第二字符串之间的相似性。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄张涛龙飞
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1