一种文档排序方法、装置及电子设备制造方法及图纸

技术编号:28622845 阅读:15 留言:0更新日期:2021-05-28 16:18
本申请公开了一种文档排序方法、装置及电子设备,涉及计算机技术中的大数据、深度学习、推荐等技术领域。具体实现方案为:对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;基于N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定第一聚类簇中的第一目标文档,其中,第一聚类簇中包括至少两个文档;将N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;根据更新后的N个聚类簇的N个文档与被推荐用户之间的相关性参数值,以及N个文档中每两个文档之间的相似度,对N个文档进行排序。可提高文档排序效果。

【技术实现步骤摘要】
一种文档排序方法、装置及电子设备
本申请涉及计算机技术中的大数据、深度学习、推荐等
,尤其涉及一种文档排序方法、装置及电子设备。
技术介绍
在企业中,产品线、业务线、技术线等各个方向的员工和组织会有很多相关的项目,这些项目会产生大量的文档,例如技术文档、产品文档、项目文档、各种培训讲座之类的视频文档等。这些文档对企业中集体和个人都非常有价值,是可以复用或学习的文档。为了让文档能够在企业内部流动起来,因此需要构建企业内部的知识推荐系统,实现知识主动找人。在推荐系统的推荐结果中,需要推荐给用户相关的内容,也就是“相关性”。知识推荐系统的目的是通过个性化推荐的方式将有价值的知识文档推荐给员工,进而提升员工的技能水平,并且促进公司业务的发展。在推荐过程中,文档排序是非常重要的一环。目前,常用的文档排序方式,是通过文档与用户之间的相关性进行排序,根据排序后的文档的先后顺序进行推荐。
技术实现思路
本申请提供一种文档排序方法、装置及电子设备。第一方面,本申请一个实施例提供一种文档排序方法,所述方法包括:对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。在本申请实施例的文档排序方法中,首先可对待推荐文档列表进行聚类,得到N个聚类簇,聚类后相同聚类簇中的文档之间具有较高的相似度,然后还需根据N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定第一聚类簇中的第一目标文档,并将N个聚类簇中每个第一聚类簇的第一目标文档删除,更新第一聚类簇,从而可得到更新后的N个聚类簇,可以理解为根据相关性参数对第一聚类簇中的文档去重,再根据更新后的N个聚类簇的N个文档与被推荐用户之间的相关性参数值,以及N个文档中每两个文档之间的相似度,对N个文档进行排序,即实现文档排序。在排序过程中,不但需要对文档进行聚类,还需对包括至少两个文档的第一聚类簇中目标进行删除更新第一聚类簇,得到更新后的N个聚类簇,然后考虑了更新后的N个聚类簇的N个文档与被推荐用户之间的相关性参数值,以及N个文档中每两个文档之间的相似度,对N个文档进行排序,如此,可提高排序效果。第二方面,本申请一个实施例提供一种文档排序装置,所述装置包括:聚类模块,用于对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;确定模块,用于基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;删除模块,用于将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;排序模块,用于根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。第三方面,本申请一个实施例还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的文档排序方法。第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的文档排序方法。第五方面,本申请一个实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请各实施例提供的文档排序方法。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请提供的一个实施例的文档排序方法的流程示意图;图2是本申请提供的一个实施例的文档排序方法中语义向量提取过程的流程示意图;图3是本申请提供的一个实施例的文档排序方法中聚类和去重过程的流程示意图;图4是本申请提供的一个实施例的文档排序方法中打散过程的流程示意图;图5是本申请提供的一个实施例的文档排序装置的结构图;图6是用来实现本申请实施例的文档排序方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,根据本申请的实施例,本申请提供一种文档排序方法,可应用于推荐系统,方法包括:步骤S101:对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数。待推荐文档列表中包括至少两个文档,每个聚类簇中包括待推荐文档列表中的至少一个文档,且每个聚类簇之间的文档不同,一个聚类簇中的任意两个文档之间具有较高的相似度,例如,相似度大于预设相似度,预设相似度可以取较高的值,例如,0.9等。作为一个示例,对待推荐文档列表进行聚类之前可以包括:初始化一个为空的待推荐文档列表;将文档池中与被推荐用户之间的相关性参数值大于第一预设阈值的文档放入待推荐文档列表中。也即是先获知被推荐用户,然后根据文档池中文档与被推荐用户之间的相关性参数值,从文档池中选择相关性参数值大于第一预设阈值的文档放入待推荐文档列表中。作为一个示例,文档与被推荐用户之间的相关性参数可以是文档的特征数据与被推荐用户的特征数据(例如,可以是对被推荐用户的历史行为信息进行特征提取得到的特征数据,历史行为信息可以是但不限于文档下载记录、文档浏览记录、文档分享记录等)之间的距离,例如,欧式距离或余弦距离等。步骤S102:基于N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定第一聚类簇中的第一目标文档,其中,第一聚类簇中包括至少两个文档。在N个聚类簇中,可能存在包括一个文档的聚类簇,也可能存在包括至少两个文档的聚类簇,对于只包括一个文档的聚类簇,无需确定其第一目标文档以及无需对该聚类簇中的文档进行删除,然而,对于包括至少两个文档的第一聚类簇,需根据第一聚类簇中的文档与被推荐用户之间的相关性参数值,确定第一聚类簇中的第一目标文档,相关性参数值越大,表示文档与被推荐用户之间的相关程度越强。若包括至少两个第一聚类簇,即N各聚类簇中存在至少两个聚类簇的文档数量分别为至少两个,如此,可确定每个第一聚类簇中的第一目标文档,例如,可基于目标聚类簇的文档与被推荐用户之间的相关性参数值,确定目标聚类簇中的第本文档来自技高网...

【技术保护点】
1.一种文档排序方法,该方法包括:/n对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;/n基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;/n将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;/n根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。/n

【技术特征摘要】
1.一种文档排序方法,该方法包括:
对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;
基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;
将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;
根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。


2.根据权利要求1所述的方法,其中,所述第一聚类簇中的第一目标文档为所述第一聚类簇中与所述被推荐用户之间的相关性参数值小于最大相关性参数值的文档,所述最大相关性参数值为所述第一聚类簇中文档与被推荐用户之间的相关性参数值中的最大值。


3.根据权利要求1所述的方法,其中,所述根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序,包括:
将所述N个文档中的第一文档放入第一列表中,所述第一文档为所述N个文档中与所述被推荐用户之间的相关性参数值最大的文档,所述第一文档在所述第一列表中排序最前;
依次将剩余文档中的第二目标文档放入所述第一列表中最后一个文档之后;
其中,所述剩余文档为所述N个文档中除放入所述第一列表中的文档之外的其余文档,所述第二目标文档为所述被推荐用户之间的相关性参数值大于或等于第一阈值,且与所述第一列表中的文档的平均相似度最低的文档,所述第一阈值为基于所述剩余文档与所述被推荐用户之间的相关性参数值确定的值。


4.根据权利要求1所述的方法,其中,所述对待推荐文档列表进行聚类,包括:
确定所述待推荐文档列表中每个文档的语义向量;
基于所述待推荐文档列表中每个文档的语义向量,对所述待推荐文档列表进行聚类。


5.根据权利要求1所述的方法,其中,所述待推荐文档列表中包括M个第一文本文档和/或P个第二文本文档,所述M以及所述P均为大于1的整数,所述第二文本文档为通过对第一视频文档进行音频提取得到音频数据以及对所述音频数据进行转换得到的文档。


6.根据权利要求1所述的方法,其中,所述根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序之后,还包括:
基于排序后的N个文档,向所述被推荐用户进行文档推荐。


7.一种文档排序装置,该装置包括:
聚类模块,用于对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;
确定模块,用于基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述...

【专利技术属性】
技术研发人员:步君昭骆金昌陈坤斌刘准和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1