【技术实现步骤摘要】
文本相似度确定方法、文本处理方法、相应的装置和设备
[0001]本申请涉及自然语言处理
,具体而言,本申请涉及一种文本相似度确定方法、文本处理方法、相应的装置和设备。
技术介绍
[0002]文本相似度计算是一种常见的自然语言处理(Natural Language Processing,NLP)手段,其目的是确定出不同文本之间的相关程度,在数据挖掘、数据分类、信息检索、信息过滤、机器翻译等领域具有十分广泛的应用前景。
[0003]现有技术中,如何对各式各样的文本进行相似度计算一直是业界的热点研究难题。虽然现有技术中已经有多种不同的文本相似度确定方法,但是每种方法的效果都有待改善。
技术实现思路
[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有文本相似度确定方法效果欠佳的技术缺陷。
[0005]第一方面,本申请提供了一种文本相似度确定方法,该方法包括:获取待确定相似度的第一文本和第二文本;对第一文本和第二文本分别进行分词处理,得到第一文本对应第一分词集合和第二文本对应的第 ...
【技术保护点】
【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,包括:获取待确定相似度的第一文本和第二文本;对所述第一文本和所述第二文本分别进行分词处理,得到所述第一文本对应第一分词集合和所述第二文本对应的第二分词集合;针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第二分词集合中距离最近的分词的距离;针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第一分词集合中距离最近的分词的距离;根据所述第一分词集合中的各个分词对应的权重和对应的距离以及所述第二分词集合中的各个分词对应的权重和对应的距离,确定所述第一文本和所述第二文本的相似度。2.根据权利要求1所述的文本相似度确定方法,其特征在于,所述根据所述第一分词集合中的各个分词对应的权重和对应的距离以及所述第二分词集合中的各个分词对应的权重和对应的距离,确定所述第一文本和所述第二文本的相似度,包括:对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果;对所述两个分词集合中的各个分词对应的权重求和,得到第二求和结果;将所述第一求和结果和所述第二求和结果相除,得到用于表示所述两个文本的相似度的最终距离。3.根据权利要求2所述的文本相似度确定方法,其特征在于,所述对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果,包括:在所述两个分词集合中分别提取权重大于第一阈值的分词,得到所述两个分词集合分别对应的分词子集合;若两个分词子集合没有交集,则确定所述两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值;对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重;对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重;对所述两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到所述第一求和结果。4.根据权利要求1
‑
3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:根据预置的近义词词库和/或等价词词库,确定所述另一个分词集合中是否存在该分词的近义词和/或等价词,其中,该分词的等价词为与该分词可以互相替换的词;若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。5.根据权利要求1
‑
3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离,所述词向量距离包括余弦距离、欧式距离和曼哈顿距离中的任一项;在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。6.根据权利要求1
‑
3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,获取该分词的权重,包括:在预置的词权重标准库中查询得到该分词的权重。7.根据权利要求1
‑
3中任一项所述的文本相似度确定方法,其特征在于,对所述第一文本和所述第二文本分别进行分词处理,包括:基于预置的标准词库和原子词库,对两个文本分别进行分词处理;其中,所述原子词库中包括的原子短语为无法插入其他语句的完整短语。8.一种文本处理方法,其特征在于,包括:获取问题文本;根据权利要求1
‑
7中任一项所述的文本相似度确定方法,确定所述问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的...
【专利技术属性】
技术研发人员:许斯军,田正中,李小可,张俊鹏,
申请(专利权)人:浙江口碑网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。