【技术实现步骤摘要】
相似度计算方法、聚类方法、装置、存储介质及电子设备
本申请实施例涉及数据处理
,尤其涉及一种相似度计算方法、聚类方法、装置、存储介质及电子设备。
技术介绍
在爬取全网数据时,爬虫从全网抓取的海量文本可能存在大量的重复,这对文本的存储、搜索等处理以及产生了巨大的影响。尤其随着信息流业务的快速发展,文本的重复度越来越高,例如在热点事件爆发时等,因此,需要及时将大量的相似文本进行去重,避免相似的信息大量推送给用户。在进行文本去重时,其中重要的一点是计算相似度。现有的计算相似度的方法中,直接两两比较确定两个文本之间的相似度,但是当需要计算相似度的文本数量较多时,例如当需要计算的文本数量达到亿极时,相似度的计算次数可能达到10e16次,导致计算量极大,进而导致相似度计算耗时较长。
技术实现思路
本申请实施例的目的在于提供一种相似度计算方法、聚类方法、装置、存储介质及电子设备,以提高相似度计算的效率,减小相似度计算的耗时。根据本申请实施例的一个方面,提供了一种相似度计算方法,其包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。根据本申请实施例的第二个方面,提供了一种智能问答系统,其包括相似度确定模块,用于根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词,所述待处理对象包括待搜索问题以及语料库中的问题;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定 ...
【技术保护点】
1.一种相似度计算方法,其特征在于,包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。
【技术特征摘要】
1.一种相似度计算方法,其特征在于,包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述词向量为稀疏词向量。3.根据权利要求1所述的方法,其特征在于,还包括:根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量。4.根据权利要求3所述的方法,其特征在于,所述根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量包括:根据所有待处理对象的关键词的总数量,确定关键词向量的维度数量,并按照预先设定的规则,建立关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量。5.根据权利要求4所述的方法,其特征在于,所述按照预先设定的规则,建立关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量包括:按照预先设定的规则,建立关键词词典,所述关键词词典包括关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量。6.根据权利要求4所述的方法,其特征在于,所述根据所有待处理对象的关键词的总数量,确定关键词向量的维度数量包括:所有待处理对象的关键词的总数量与关键词向量的维度数量相等。7.根据权利要求4所述的方法,其特征在于,所述根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量包括:根据每个待处理对象的关键词以及所述映射关系,对关键词向量的各个维度进行赋值,确定每个待处理对象对应的赋值后的关键词向量。8.根据权利要求1所述的方法,其特征在于,所述待处理对象包括待搜索问题以及语料库中的问题,确定的相似度为同一组中的待搜索问题与语料库中的问题之间的相似度。9.一种智能问答系统,其特征在于,包括相似度确定模块,用于根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词,所述待处理对象包括待搜索问题以及语料库中的问题;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定同一组中的待搜索问题与语料库中的问题之间的相似度。10.一种聚类方法,其特征在于,包括:根据所有待聚类文本对应的文本词向量,将所有所述待聚类文本归为多个类簇,每个类簇中的所述待聚类文本具有至少部分相同的关键词;确定所述类簇对应的中心词向量,将所述待聚类文本与所述类簇作为待处理对象,并将所述中心词向量和所述文本词向量均作为关键词向量,以通过如权利要求1-7任一项所述的方法确定所述待聚类文本与所述类簇之间的相似度;根据相似度的计算结果更新所述类簇中的所述待聚类文本,以完成待聚类文本的聚类。11.根据权利要求10所述的方法,其特征在于,所述每个类簇中的所述待聚类文本具有至少部分相同的关键词包括:每个类簇中的所述待聚类文本均具有一个相同的关键词。12.根据权利要求10所述的方法,其特征在于,还包括:根据预设条件,过滤确定的多个所述类簇。13.根据权利要求12所述的方法,其特征在于,所述预设条件包括:所述类簇中相似的所述待聚类文本所占的比例大于第一阈值;或者,所述类簇中包括的所述待聚类文本在所述待聚类文本总量中所占的比例处于预设范围之外。14.根据权利要求10所述的方法,其特征在于,还包括:确定所述多个类簇间的相似度,合并相似度大于第二阈值的所述类簇,并重新计算合并后的...
【专利技术属性】
技术研发人员:祝航程,
申请(专利权)人:广州神马移动信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。