相似度计算方法、聚类方法、装置、存储介质及电子设备制造方法及图纸

技术编号:19934356 阅读:27 留言:0更新日期:2018-12-29 04:36
本申请实施例提供了一种相似度计算方法、聚类方法、装置、存储介质及电子设备,其中,相似度计算方法包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。本申请实施例提供的方案,可以直接计算至少具有部分相同关键词的多个待处理对象之间的相似度,从而避免了两两计算所有的待处理对象的相似度,极大地减小了计算量。

【技术实现步骤摘要】
相似度计算方法、聚类方法、装置、存储介质及电子设备
本申请实施例涉及数据处理
,尤其涉及一种相似度计算方法、聚类方法、装置、存储介质及电子设备。
技术介绍
在爬取全网数据时,爬虫从全网抓取的海量文本可能存在大量的重复,这对文本的存储、搜索等处理以及产生了巨大的影响。尤其随着信息流业务的快速发展,文本的重复度越来越高,例如在热点事件爆发时等,因此,需要及时将大量的相似文本进行去重,避免相似的信息大量推送给用户。在进行文本去重时,其中重要的一点是计算相似度。现有的计算相似度的方法中,直接两两比较确定两个文本之间的相似度,但是当需要计算相似度的文本数量较多时,例如当需要计算的文本数量达到亿极时,相似度的计算次数可能达到10e16次,导致计算量极大,进而导致相似度计算耗时较长。
技术实现思路
本申请实施例的目的在于提供一种相似度计算方法、聚类方法、装置、存储介质及电子设备,以提高相似度计算的效率,减小相似度计算的耗时。根据本申请实施例的一个方面,提供了一种相似度计算方法,其包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。根据本申请实施例的第二个方面,提供了一种智能问答系统,其包括相似度确定模块,用于根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词,所述待处理对象包括待搜索问题以及语料库中的问题;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定同一组中的待搜索问题与语料库中的问题之间的相似度。根据本申请实施例的第三个方面,提供了一种聚类方法,其包括:根据所有待聚类文本对应的文本词向量,将所有所述待聚类文本归为多个类簇,每个类簇中的所述待聚类文本具有至少部分相同的关键词;确定所述类簇对应的中心词向量,将所述待聚类文本与所述类簇作为待处理对象,并将所述中心词向量和所述文本词向量均作为关键词向量,以通过如上所述的方法确定所述待聚类文本与所述类簇之间的相似度;根据相似度的计算结果更新所述类簇中的所述待聚类文本,以完成待聚类文本的聚类。根据本申请实施例的第四个方面,提供了一种相似度计算装置,其包括:第一程序单元,用于根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;第二程序单元,用于计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。根据本申请实施例的第五个方面,提供了一种聚类装置,其包括:第三程序单元,用于根据所有待聚类文本对应的文本词向量,将所有所述待聚类文本归为多个类簇,每个类簇中的所述待聚类文本具有至少部分相同的关键词;第四程序单元,用于确定所述类簇对应的中心词向量,将所述待聚类文本与所述类簇作为待处理对象,并将所述中心词向量和所述文本词向量均作为关键词向量,以通过如上所述的方法确定所述待聚类文本与所述类簇之间的相似度;第五程序单元,用于根据相似度的计算结果更新所述类簇中的所述待聚类文本,以完成待聚类文本的聚类。根据本申请实施例的第六个方面,提供了一种存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在被处理器处理时执行如下步骤:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。根据本申请实施例的第七个方面,提供了一种存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在被处理器处理时执行如下步骤:根据所有待聚类文本对应的文本词向量,将所有所述待聚类文本归为多个类簇,每个类簇中的所述待聚类文本具有至少部分相同的关键词;确定所述类簇对应的中心词向量,将所述待聚类文本与所述类簇作为待处理对象,并将所述中心词向量和所述文本词向量均作为关键词向量,以通过如上所述的方法确定所述待聚类文本与所述类簇之间的相似度;根据相似度的计算结果更新所述类簇中的所述待聚类文本,以完成待聚类文本的聚类。根据本申请实施例的第八个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。本申请实施例提供的相似度计算方法、聚类方法、装置、存储介质及电子设备,根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度,从而可以直接计算至少具有部分相同关键词的多个所述待处理对象之间的相似度,从而避免了两两计算所有的待处理对象的相似度,极大地减小了计算量。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例一提供的一种相似度计算方法的流程示意图;图2为本申请实施例二提供的一种确定关键词向量的方法流程示意图;图3为本申请实施例三提供的一种聚类方法的流程示意图;图4为本申请实施例四提供一种聚类方法流程示意图;图5为本申请实施例五提供一种事件级聚类的方法流程图;图6为本申请实施例六提供的一种相似度计算装置的结构示意图;图7为本申请实施例七提供一种聚类装置的结构示意图;图8为本申请执行上述方法的一些电子设备的硬件结构示意图。具体实施方式以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。实施例一图1为本申请实施例一提供的一种相似度计算方法的流程示意图,如图1所示,其包括:S11、根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词。本实施例中,待处理对象可以为文本数据、图像数据、语音数据、下述的类簇等,本实施例对此不进行限定。本实施例中,对于不同类型的待处理对象,关键词的体现也会有所不同。例如,当待处理对象为文本数据时,关键词可以为文本中提取得到的文本关键词;当待处理对象为图像数据时,关键词可以为图像数据中的节点、灰度值等;当待处理对象为语音数据时,关键词可以为语音数据的音调关键词、语音数据转换得到的文本关键词等。本实施例中,关键词向量是根据待处理对象中包括的关键词生成的向量,由于关键词向量与待处理对象一一对应,因此关键词向量可以用于从整体上表征对应的待处理对象;此外,关键词向量还可以用于表征对应的待处理对象中的关键词,从而可以直接根据关键词向量确定对应的待处理对象中的关键词,当然,关键词向量还可以用于表征对应的待处理对象的其他内容,本实施例对此不进行限定。本实施例中,可以根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量。例如,可以根据所有待处理对本文档来自技高网...

【技术保护点】
1.一种相似度计算方法,其特征在于,包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。

【技术特征摘要】
1.一种相似度计算方法,其特征在于,包括:根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定组中不同待处理对象之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述词向量为稀疏词向量。3.根据权利要求1所述的方法,其特征在于,还包括:根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量。4.根据权利要求3所述的方法,其特征在于,所述根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量包括:根据所有待处理对象的关键词的总数量,确定关键词向量的维度数量,并按照预先设定的规则,建立关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量。5.根据权利要求4所述的方法,其特征在于,所述按照预先设定的规则,建立关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量包括:按照预先设定的规则,建立关键词词典,所述关键词词典包括关键词向量的维度与关键词一一映射关系,以确定每个待处理对象对应的关键词向量。6.根据权利要求4所述的方法,其特征在于,所述根据所有待处理对象的关键词的总数量,确定关键词向量的维度数量包括:所有待处理对象的关键词的总数量与关键词向量的维度数量相等。7.根据权利要求4所述的方法,其特征在于,所述根据所有待处理对象的关键词以及预先设定的规则,确定每个待处理对象对应的关键词向量包括:根据每个待处理对象的关键词以及所述映射关系,对关键词向量的各个维度进行赋值,确定每个待处理对象对应的赋值后的关键词向量。8.根据权利要求1所述的方法,其特征在于,所述待处理对象包括待搜索问题以及语料库中的问题,确定的相似度为同一组中的待搜索问题与语料库中的问题之间的相似度。9.一种智能问答系统,其特征在于,包括相似度确定模块,用于根据所有待处理对象对应的关键词向量,对所有待处理对象进行分组,同一组中的待处理对象至少具有部分相同的关键词,所述待处理对象包括待搜索问题以及语料库中的问题;计算同一组中不同待处理对象的关键词向量之间的相似度,以确定同一组中的待搜索问题与语料库中的问题之间的相似度。10.一种聚类方法,其特征在于,包括:根据所有待聚类文本对应的文本词向量,将所有所述待聚类文本归为多个类簇,每个类簇中的所述待聚类文本具有至少部分相同的关键词;确定所述类簇对应的中心词向量,将所述待聚类文本与所述类簇作为待处理对象,并将所述中心词向量和所述文本词向量均作为关键词向量,以通过如权利要求1-7任一项所述的方法确定所述待聚类文本与所述类簇之间的相似度;根据相似度的计算结果更新所述类簇中的所述待聚类文本,以完成待聚类文本的聚类。11.根据权利要求10所述的方法,其特征在于,所述每个类簇中的所述待聚类文本具有至少部分相同的关键词包括:每个类簇中的所述待聚类文本均具有一个相同的关键词。12.根据权利要求10所述的方法,其特征在于,还包括:根据预设条件,过滤确定的多个所述类簇。13.根据权利要求12所述的方法,其特征在于,所述预设条件包括:所述类簇中相似的所述待聚类文本所占的比例大于第一阈值;或者,所述类簇中包括的所述待聚类文本在所述待聚类文本总量中所占的比例处于预设范围之外。14.根据权利要求10所述的方法,其特征在于,还包括:确定所述多个类簇间的相似度,合并相似度大于第二阈值的所述类簇,并重新计算合并后的...

【专利技术属性】
技术研发人员:祝航程
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1