一种文本相似度的计算方法和装置制造方法及图纸

技术编号:13375801 阅读:83 留言:0更新日期:2016-07-20 23:08
本申请提供一种文本相似度的计算方法和装置。所述方法包括:对初始文本进行分词划分,得到所述初始文本包含的初始词;为所述初始文本中的初始词获取对应的相似词;分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词,为所述初始文本生成对应的扩展文本;根据扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的相似度。通过本申请的技术方案,可以有效提高文本相似度计算的准确率。

【技术实现步骤摘要】

本申请涉及信息处理
,尤其涉及一种文本相似度的计算方法和装置
技术介绍
随着互联网技术的发展,越来越多的人们通过网络获取信息,比如:可以通过搜索引擎进行信息搜索,也可以通过相关问答系统以提问的方式获取信息。以问答系统为例,目前,常用的解决方案是根据用户输入的问题,查找一些相似的文本,然后分别计算各个相似文本和用户输入的问题的相似度,选择相似度最高的文本的回答内容返回给用户。在这个过程中,相似度计算的准确度将直接影响问答系统的准确率。
技术实现思路
有鉴于此,本申请提供一种文本相似度的计算方法和装置,能够有效解决相关技术中文本相似度计算不够准确的问题。具体地,本申请是通过如下技术方案实现的:一种文本相似度的计算方法,所述方法包括:对初始文本进行分词划分,得到所述初始文本包含的初始词;为所述初始文本中的初始词获取对应的相似词;分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词,为所述初始文本生成对应的扩展文本;根据扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的相似度。进一步地,所述为所述初始文本中的初始词获取对应的相似词,包括:判断所述初始词是否为结果相关初始词;如果所述初始词是结果相关初始词,则为所述初始词获取对应的相似词。进一步地,所述为所述初始词获取对应的相似词,包括:将所述初始词的相似词按照相似度降序排列;判断所述排列中第N个相似词的相似度是否大于等于阈值;如果所述排列中第N个相似词的相似度大于等于阈值,则从所述排列中选取前N个相似词,N为大于等于1的自然数。进一步地,如果所述排列中第N个相似词的相似度小于阈值,则从所述排列中选取相似度大于等于所述阈值的所有相似词。进一步地,所述分别根据所述初始文本中的初始词和所述初始词对应的所述相似词,为所述初始文本生成对应的扩展文本,包括:将所述初始文本中的初始词放入所述初始文本对应的扩展文本中,所述初始词在所述扩展文本中的当前权重为所述初始词在所述初始文本中的权重;分别判断获取到的所述初始文本中的初始词的相似词是否已存在于所述扩展文本中;如果所述相似词已存在于所述扩展文本中,则将所述扩展文本中所述相似词的当前权重加上所述相似词的相似度,以更新所述扩展文本中的所述相似词的当前权重;如果所述相似词不存在于所述扩展文本中,则在所述扩展文本中加入所述相似词,所述扩展文本中所述相似词的初始权重为所述相似词的相似度。一种文本相似度的计算装置,所述装置包括:划分单元,对初始文本进行分词划分,得到所述初始文本包含的初始词;获取单元,为所述初始文本中的初始词获取对应的相似词;生成单元,分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词,为所述初始文本生成对应的扩展文本;确定单元,根据扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的相似度。进一步地,所述获取单元包括:结果判断子单元,判断所述初始词是否为结果相关初始词;相似获取子单元,在所述初始词是结果相关初始词时,为所述初始词获取对应的相似词。进一步地,所述相似获取子单元,具体将所述初始词的相似词按照相似度降序排列,并判断所述排序中第N个相似词的相似度是否大于等于阈值,在所述排列中第N个相似词的相似度大于等于阈值时,从所述排列中选取前N个相似词,N为大于等于1的自然数。进一步地,所述相似获取子单元,进一步在所述排列中第N个相似词的相似度小于阈值时,从所述排列中选取相似度大于等于所述阈值的所有相似词。进一步地,所述生成单元包括:初始放入子单元,将所述初始文本中的初始词放入所述初始文本对应的扩展文本中,所述初始词在所述扩展文本中的当前权重为所述初始词在所述初始文本中的权重;扩展判断子单元,分别判断获取到的所述初始文本中的初始词的相似词是否已存在于所述扩展文本中;权重更新子单元,在所述相似词已存在于所述扩展文本中时,将所述扩展文本中所述相似词的当前权重加上所述相似词的相似度,以更新所述扩展文本中的所述相似词的当前权重;相似加入子单元,在所述相似词不存在于所述扩展文本中时,在所述扩展文本中加入所述相似词,所述扩展文本中所述相似词的当前权重为所述相似词的相似度。由以上描述可以看出,本申请获取初始文本中的初始词的相似词,进而可以根据所述相似词对所述初始文本进行扩展,以生成所述初始文本对应的扩展文本,并通过计算扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的相似度,提高文本相似度计算的准确率。附图说明图1是本申请一示例性实施例示出的一种文本相似度的计算方法流程示意图。图2是本申请一示例性实施例示出的另一种文本相似度的计算方法流程示意图。图3是本申请一示例性实施例示出的一种为初始词获取对应的相似词的流程示意图。图4是本申请一示例性实施例示出的一种为初始文本生成对应的扩展文本的流程示意图。图5是本申请一示例性实施例示出的一种服务端的结构示意图。图6是本申请一示例性实施例示出的一种文本相似度的计算装置的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。针对上述问题,本申请提供一种文本相似度的计算方案,可以有效提高文本相似度计算的准确率。...

【技术保护点】
一种文本相似度的计算方法,其特征在于,所述方法包括:对初始文本进行分词划分,得到所述初始文本包含的初始词;为所述初始文本中的初始词获取对应的相似词;分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词,为所述初始文本生成对应的扩展文本;根据扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的相似度。

【技术特征摘要】
1.一种文本相似度的计算方法,其特征在于,所述方法包括:
对初始文本进行分词划分,得到所述初始文本包含的初始词;
为所述初始文本中的初始词获取对应的相似词;
分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词,
为所述初始文本生成对应的扩展文本;
根据扩展文本之间的相似度,确定所述扩展文本对应的初始文本之间的
相似度。
2.根据权利要求1所述的方法,其特征在于,
所述为所述初始文本中的初始词获取对应的相似词,包括:
判断所述初始词是否为结果相关初始词;
如果所述初始词是结果相关初始词,则为所述初始词获取对应的相似词。
3.根据权利要求2所述的方法,其特征在于,
所述为所述初始词获取对应的相似词,包括:
将所述初始词的相似词按照相似度降序排列;
判断所述排列中第N个相似词的相似度是否大于等于阈值;
如果所述排列中第N个相似词的相似度大于等于阈值,则从所述排列中
选取前N个相似词,N为大于等于1的自然数。
4.根据权利要求3所述的方法,其特征在于,
如果所述排列中第N个相似词的相似度小于阈值,则从所述排列中选取
相似度大于等于所述阈值的所有相似词。
5.根据权利要求1所述的方法,其特征在于,
所述分别根据所述初始文本中的初始词和所述初始词对应的所述相似词,
为所述初始文本生成对应的扩展文本,包括:
将所述初始文本中的初始词放入所述初始文本对应的扩展文本中,所述
初始词在所述扩展文本中的当前权重为所述初始词在所述初始文本中的权重;
分别判断获取到的所述初始文本中的初始词的相似词是否已存在于所述
扩展文本中;
如果所述相似词已存在于所述扩展文本中,则将所述扩展文本中所述相
似词的当前权重加上所述相似词的相似度,以更新所述扩展文本中的所述相似
词的当前权重;
如果所述相似词不存在于所述扩展文本中,则在所述扩展文本中加入所
述相似词,所述扩展文本中所述相似词的初始权重为所述相似词的相似度。
6.一...

【专利技术属性】
技术研发人员:陈超
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1