【技术实现步骤摘要】
文本相似度的计算方法、装置、存储介质及计算机设备
[0001]本专利技术涉及信息
,尤其是涉及一种文本相似度的计算方法、装置、存储介质及计算机设备。
技术介绍
[0002]信息社会目前已经全面进入大数据时代,伴随的是用户数据、业务数据的不断积累,对于文本的数据检索的需求也应运而生,使用最为广泛的就是基于文本相似度的检索方式,其中就涉及到如何通过计算文本相似度来在海量文本中检索出相似的文本。
[0003]目前,通常依据文本中重复词出现的数量来计算文本相似度。然而,在这种方式中,一旦在两条文本中出现了相同的词或者短语,便认为这两个词或者短语完全相同,但是实际上同一个词或者同一个短语在不同文本中代表的意思可能完全不同,两者之间没有任何关联,因此这种仅通过统计重复词或者重复短语出现的数量来计算文本相似度的方式,会导致文本相似度的计算精度较低,进而会影响文本的检索效果。
技术实现思路
[0004]本专利技术提供了一种文本相似度的计算方法、装置、存储介质及计算机设备,主要在于能够提高文本相似度的计算精度。< ...
【技术保护点】
【技术特征摘要】
1.一种文本相似度的计算方法,其特征在于,包括:获取待处理的两条文本分别对应的各个分词;基于所述各个分词,确定所述两条文本中包含的各个公共子句;根据所述各个公共子句对应的第一长度,确定最长长度的公共子句,以及所述两条文本中各个非公共子句对应的第二长度;根据所述最长长度的公共子句,分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重;根据所述第一相似度权重和所述第一长度,以及所述第二相似度权重和所述第二长度,分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度;将所述第一相似度和所述第二相似度相加,得到所述两条文本之间的相似度。2.根据权利要求1所述的方法,其特征在于,在所述获取待处理的两条文本分别对应的各个分词之后,所述方法还包括:将所述两条文本中的各个分词按顺序相互插入,得到所述两条文本对应的插入后的各个分词,其中,插入的分词为在被插入的文本中不存在的分词;分别统计所述插入后的各个分词在所述两条文本中的词频;若所述插入后的各个分词中的目标分词在所述两条文本中任意一条文本中的词频大于第一预设词频,则将所述目标分词分别从所述两条文本中去除,得到所述两条文本对应的处理后的各个分词;若所述目标分词在所述任意一条文本中的词频小于或者等于所述第一预设词频,且大于第二预设词频,则对所述目标分词在所述任意一条文本中的词频进行降频处理,得到所述两条文本对应的处理后的各个分词。3.根据权利要求2所述的方法,其特征在于,所述基于所述各个分词,确定所述两条文本中包含的各个公共子句,包括:分别确定所述处理后的各个分词在所述两条文本中的位置索引;遍历两条文本中各个位置索引处的分词,利用动态规划求解的方式,确定所述两条文本中包含的各个公共子句。4.根据权利要求2所述的方法,其特征在于,所述根据所述各个公共子句对应的第一长度,确定最长长度的公共子句,以及所述两条文本中各个非公共子句对应的第二长度,包括:根据所述两条文本包含的分词数量,确定所述两条文本对应的文本长度,并根据所述各个公共子句中包含的分词数量,确定所述各个公共子句对应的第一长度;从各个第一长度中筛选出最长长度,并确定所述最长长度对应的公共子句;分别将所述文本长度与所述各个公共子句对应的第一长度相减,得到所述两条文本中各个非公共子句对应的第二长度。5.根据权利要求2所述的方法,其特征在于,所述根据所述最长长度的公共子句,分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重,包括:将所述最长长度的公共子句分别从所述两条文本中排除,得到所述两条文本分别对应
的最短非公共子句;根据所述最短非公共子句中包含...
【专利技术属性】
技术研发人员:谷坤,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。