本发明专利技术公开了一种文档推荐方法及装置,一种文档推荐方法包括:在预置的文档集合中,以文档A为中心,根据文档内容的相似程度对文档进行聚簇;根据当前存在的文档关联信息,确定与文档A同簇文档的关联文档;利用所确定的与文档A同簇文档的关联文档,构成文档A的第一推荐结果。与现有技术相比,应用本发明专利技术所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。这样即便是新发布的文档,也可以为其生成推荐结果,有效解决了冷启动问题与数据稀疏问题。
【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别是涉及一种文档推荐方法及装置。
技术介绍
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了让用户能够更方便快捷地获得这些信息,推荐技术在信息系统得到了广泛应用。其中,关联推荐技术又成为推荐技术的一个重要组成部分,关联推荐技术的基本思想是,基于信息的一个或多个特征,找到不同信息之间的相关性,并进一步建立信息之间的联系关系,当用户浏览某一信息时,推荐系统会将与该信息具有联系关系的信息也推荐给用户。 对于关联推荐技术的研究重点,除了挖掘更多可用于推荐的特征之外,还在于如何在实际应用中根据这些特征建立起信息之间的关系。目前,较为常用的方式是根据用户行为建立信息之间的关系,以文档推荐为例,可以根据用户对文档的浏览、搜索等历史行为记录,分析用户的兴趣,然后根据单个或多个用户的兴趣相似程度,建立文档之间的联系关系,最后根据所建立的关系进行文档推荐。但是,现有关联推荐方法,存在着很严重的冷启动问题与数据稀疏问题,所谓冷启动是指新发布的信息,数据稀疏则是指对于有些信息,其本身的相关用户行为记录很少(或为0),因此难以根据用户行为产生推荐结果。目前常用的解决方案是通过人工干预的方式为新发布的信息预置一些推荐结果,但是这种方式需要消耗人力成本,并且要求操作人员具有丰富的先验知识,推荐结果也存在着较大的局限性和主观性,在实际应用中经常无法满足信息浏览者的实际需求。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种文档推荐方法及装置,以解决文档相关推荐中的冷启动问题与数据稀疏问题。具体技术方案如下一种文档推荐方法,包括在预置的文档集合中,以文档A为中心,根据文档内容的相似程度对文档进行聚簇;根据当前存在的文档关联信息,确定与文档A同簇文档的关联文档;利用所确定的与文档A同簇文档的关联文档,构成文档A的第一推荐结果。在本专利技术的一种具体实施方式中,所述文档关联信息为根据与文档相关的用户行为记录所建立的不同文档之间的关联信息。在本专利技术的一种具体实施方式中,所述文档关联信息为根据文档所归属的类别所建立的不同文档之间的关联信息。在本专利技术的一种具体实施方式中,所述以文档A为中心,根据文档内容的相似程度对文档进行聚簇,包括对文档内容进行判重,将与文档A内容重复度超过预设阈值的文档聚合为一个文档簇。在本专利技术的一种具体实施方式中,所述根据文档内容的相似程度对文档进行聚簇,包括利用文档A进行检索,根据检索结果,将与文档A内容相关度超过预设阈值的文档聚合为一个文档簇。在本专利技术的一种具体实施方式中,该方法还包括利用文档A的同簇文档,构成文档A的第二推荐结果。一种文档推荐装置,包括 聚簇单元,用于在预置的文档集合中,以文档A为中心,根据文档内容的相似程度对文档进行聚簇;关联单元,用于根据当前存在的文档关联信息,确定与文档A同簇文档的关联文档;推荐单元,用于利用所确定的与文档A同簇文档的关联文档,构成文档A的第一推荐结果。在本专利技术的一种具体实施方式中,所述文档关联信息为根据与文档相关的用户行为记录所建立的不同文档之间的关联信息。在本专利技术的一种具体实施方式中,所述文档关联信息为根据文档所归属的类别所建立的不同文档之间的关联信息。在本专利技术的一种具体实施方式中,所述聚簇单元,具体用于对文档内容进行判重,将与文档A内容重复度超过预设阈值的文档聚合为一个文档簇。在本专利技术的一种具体实施方式中,所述聚簇单元,具体用于利用文档A进行检索,根据检索结果,将与文档A内容相关度超过预设阈值的文档聚合为一个文档簇。在本专利技术的一种具体实施方式中,所述推荐单元,还用于利用文档A的同簇文档,构成文档A的第二推荐结果。本专利技术实施例所提供的技术方案,基于文档具体内容的相似程度,对文档进行聚簇,然后根据聚簇结果进行文档推荐。相当于将内容相似的若干个文档,视为相同的一个点进行处理。这样即便是新发布的文档,也可以为其生成推荐结果,另一方面,对于当前已经具有推荐结果的文档,也可以根据聚簇情况对推荐结果做进一步的优化。与现有技术相比,应用本专利技术所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。此外,假设文档间当前已有的关联关系是合理的,那么基于内容相似性聚簇后的推荐结果仍然是合理的,也就是说,本专利技术方案在推荐过程中,能够在不引入操作人员个人主观因素影响的前提下,对新发布的文档给出高置信度的推荐结果,从而进一步提升推荐系统的性能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图I为本专利技术实施例文档推荐方法的一种流程图;图2为本专利技术实施例文档推荐装置的一种结构示意图。具体实施例方式首先对本专利技术实施例所提供的一种文档推荐方法进行说明,该方法可以包括以下步骤在预置的文档集合中,以文档A为中心,根据文档内容的相似程度对文档进行聚簇; 根据当前存在的文档关联信息,确定与文档A同簇文档的关联文档;利用所确定的与文档A同簇文档的关联文档,构成文档A的第一推荐结果。本专利技术实施例中的文档,可以表现为多种形式,例如可以是TXT、DOC、PDF等文件形式的文档,也可以是网页形式的文档,这些并不影响本专利技术方案的实现。本专利技术实施例所提供的文档推荐方法,是在一定的文档范围内进行,也就是说,根据不同的应用环境,都存在一个预置的文档集合。例如在网络文库内进行推荐,则文库中所有的用户上传文件构成预置的文档集合;在知识平台进行推荐,则该平台中所有的知识主题构成预置的文档集合;在新闻网站进行推荐,则该网站中所有的新闻网页构成预置的文档集合。当然,根据实际的应用需要,可以灵活设置推荐范围的大小,小至某个具体的文档主题类别,大至全互联网范围,本专利技术对此并不需要进行限定。本专利技术实施例所提供的技术方案,首先基于文档具体内容的相似程度,对文档进行聚簇,然后根据聚簇结果进行文档推荐。相当于将内容相似的若干个文档,视为相同的一个点进行处理。假设A是新发布文档,通过以文档A为中心进行聚簇后,将与文档A内容近似的文档B、文档C、文档D聚为相同的簇。这样,如果B、C、D本身具有关联文档,那么就可以将B、C、D的关联文档作为A的推荐结果反馈给用户。与现有技术相比,应用本专利技术所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。此外,假设文档间当前已有的关联关系是合理的,那么基于内容相似性聚簇后的推荐结果仍然是合理的,也就是说,本专利技术方案在推荐过程中,能够在不引入操作人员个人主观因素影响的前提下,对新发布的文档给出高置信度的推荐结果,从而进一步提升推荐系统的性能。为了使本领域技术人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本专利技术保护的范围。图I所示为本专利技术实施例所提供的一种文档推荐方法的流程图,该方法可以包括以下步骤S101,在预置的文档集合中,以文档A为中本文档来自技高网...

【技术保护点】
一种文档推荐方法,其特征在于,包括:在预置的文档集合中,以文档A为中心,根据文档内容的相似程度对文档进行聚簇;根据当前存在的文档关联信息,确定与文档A同簇文档的关联文档;利用所确定的与文档A同簇文档的关联文档,构成文档A的第一推荐结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐兴军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。