【技术实现步骤摘要】
一种文档排序方法、装置及电子设备
本申请涉及计算机技术中的大数据、深度学习、推荐等
,尤其涉及一种文档排序方法、装置及电子设备。
技术介绍
在企业中,产品线、业务线、技术线等各个方向的员工和组织会有很多相关的项目,这些项目会产生大量的文档,例如技术文档、产品文档、项目文档、各种培训讲座之类的视频文档等。这些文档对企业中集体和个人都非常有价值,是可以复用或学习的文档。为了让文档能够在企业内部流动起来,因此需要构建企业内部的知识推荐系统,实现知识主动找人。在推荐系统的推荐结果中,需要推荐给用户相关的内容,也就是“相关性”。知识推荐系统的目的是通过个性化推荐的方式将有价值的知识文档推荐给员工,进而提升员工的技能水平,并且促进公司业务的发展。在推荐过程中,文档排序是非常重要的一环。目前,常用的文档排序方式,是通过文档与用户之间的相关性进行排序,根据排序后的文档的先后顺序进行推荐。
技术实现思路
本申请提供一种文档排序方法、装置及电子设备。第一方面,本申请一个实施例提供一种文档排序方法,所述方法包括:对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间 ...
【技术保护点】
1.一种文档排序方法,该方法包括:/n对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;/n基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;/n将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;/n根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。/n
【技术特征摘要】
1.一种文档排序方法,该方法包括:
对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;
基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述第一聚类簇中的第一目标文档,其中,所述第一聚类簇中包括至少两个文档;
将所述N个聚类簇中的第一聚类簇的第一目标文档删除,使得更新后的N个聚类簇中每个聚类簇只包括一个文档;
根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序。
2.根据权利要求1所述的方法,其中,所述第一聚类簇中的第一目标文档为所述第一聚类簇中与所述被推荐用户之间的相关性参数值小于最大相关性参数值的文档,所述最大相关性参数值为所述第一聚类簇中文档与被推荐用户之间的相关性参数值中的最大值。
3.根据权利要求1所述的方法,其中,所述根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序,包括:
将所述N个文档中的第一文档放入第一列表中,所述第一文档为所述N个文档中与所述被推荐用户之间的相关性参数值最大的文档,所述第一文档在所述第一列表中排序最前;
依次将剩余文档中的第二目标文档放入所述第一列表中最后一个文档之后;
其中,所述剩余文档为所述N个文档中除放入所述第一列表中的文档之外的其余文档,所述第二目标文档为所述被推荐用户之间的相关性参数值大于或等于第一阈值,且与所述第一列表中的文档的平均相似度最低的文档,所述第一阈值为基于所述剩余文档与所述被推荐用户之间的相关性参数值确定的值。
4.根据权利要求1所述的方法,其中,所述对待推荐文档列表进行聚类,包括:
确定所述待推荐文档列表中每个文档的语义向量;
基于所述待推荐文档列表中每个文档的语义向量,对所述待推荐文档列表进行聚类。
5.根据权利要求1所述的方法,其中,所述待推荐文档列表中包括M个第一文本文档和/或P个第二文本文档,所述M以及所述P均为大于1的整数,所述第二文本文档为通过对第一视频文档进行音频提取得到音频数据以及对所述音频数据进行转换得到的文档。
6.根据权利要求1所述的方法,其中,所述根据所述更新后的N个聚类簇的N个文档与所述被推荐用户之间的相关性参数值,以及所述N个文档中每两个文档之间的相似度,对N个文档进行排序之后,还包括:
基于排序后的N个文档,向所述被推荐用户进行文档推荐。
7.一种文档排序装置,该装置包括:
聚类模块,用于对待推荐文档列表进行聚类,得到N个聚类簇,N为大于1的正数;
确定模块,用于基于所述N个聚类簇中第一聚类簇的文档与被推荐用户之间的相关性参数值,确定所述...
【专利技术属性】
技术研发人员:步君昭,骆金昌,陈坤斌,刘准,和为,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。