一种文档聚类的方法和装置制造方法及图纸

技术编号:17939864 阅读:39 留言:0更新日期:2018-05-15 20:14
本发明专利技术实施例提供了一种文档聚类的方法和装置,上述方法包括:获取待聚类的各目标文档的对应的用户行为信息,根据用户行为信息,确定每一目标文档的目标用户,将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,可以输出每一目标文档属于每一类别的第一概率。利用本发明专利技术实施例的方法,可以根据文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。

A method and device for document clustering

The present invention provides a method and device for document clustering. The method includes: obtaining the corresponding user behavior information of the target documents to be clustered, determining the target user of each target document according to the user behavior information, the corresponding relationship between the document identification of the sample document and the sample user, and the presupposition. The number of classes is input into the preset clustering analysis model for training, and each target document can be output to the first probability of each class. By using the method of the present invention, the target document can be clustered according to the correspondence of the document and the target user, so as to avoid the few words contained in the target document and the low accuracy of the document clustering resulting from the low accuracy of the word segmentation, and then improve the accuracy of the document clustering.

【技术实现步骤摘要】
一种文档聚类的方法和装置
本专利技术涉及文本分析
,特别是涉及一种文档聚类的方法和装置。
技术介绍
一个文档通常可以属于多个类别,例如,一个关于教育的文档所属的类别为教育类,如果该文档主要介绍的是艺术教育,该文档所属的类别还可以包括艺术类。对文档进行聚类分析,可以获得文档属于不同类别的概率,进而可以实现文档的推荐和搜索。现有的文档聚类步骤如下:首先对各目标文档进行分词,获得每个目标文档包含的词语;然后计算每个目标文档中各词语出现的概率;根据计算得到的概率,利用LDA(LatentDirichletAllocation,潜在狄利克雷分配模型)等聚类分析模型进行训练学习。LDA可以根据预设的类别的数目,计算每一目标文档属于预设的每一类别的概率。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:利用LDA等聚类分析模型进行训练学习,要求每一目标文档都包含尽量多的词语。当目标文档的文本长度较短时,对目标文档进行分词,得到的目标文档包含的词语较少,或者分词的准确度较低,都会导致获得的每一目标文档属于预设的每一类别的概率的不够准确,即文档聚类的准确度低。
技术实现思路
本专利技术实施例的目的在于提供一种文档聚类的方法、装置、电子设备及计算机可读存储介质,以提高文档聚类的准确度。具体技术方案如下:第一方面,为了达到上述目的,本专利技术实施例公开了一种文档聚类的方法,上述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。可选的,所述方法还包括:获取所述用户行为信息对应的用户行为时间;所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。可选的,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。可选的,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;根据该目标文档对应的用户分享信息确定该目标文档的分享用户;根据该目标文档对应的用户评论信息确定该目标文档的评论用户;将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。可选的,在所述将所述各目标文档的文档标识与所述目标用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型之后,所述方法还包括:输出每一所述目标用户属于每一所述类别的第二概率;根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。第二方面,为达到上述目的,本专利技术实施例公开了一种文档聚类的装置,上述装置包括:第一获取模块,用于获取待聚类的各目标文档对应的用户行为信息;确定模块,用于根据所述用户行为信息,确定每一目标文档的目标用户;输出模块,用于将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。可选的,所述装置还包括:第二获取模块,用于获取所述用户行为信息对应的用户行为时间;所述确定模块,具体用于针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。可选的,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。可选的,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述确定模块,具体用于针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;根据该目标文档对应的用户分享信息确定该目标文档的分享用户;根据该目标文档对应的用户评论信息确定该目标文档的评论用户;将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。可选的,所述装置还包括:计算模块,用于输出每一所述目标用户属于每一所述类别的第二概率;根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。在本专利技术实施的另一方面,为了达到上述目的,本专利技术实施例还公开了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现如上述第一方面所述的文档聚类的方法。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,实现如上述第一方面所述的文档聚类的方法。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的文档聚类的方法。本专利技术实施例提供的一种文档聚类的方法、装置、电子设备及计算机可读存储介质,上述方法包括:获取待聚类的各目标文档的对应的用户行为信息,根据用户行为信息,确定每一目标文档的目标用户,将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,可以输出每一目标文档属于每一类别的第一概率。基于上述处理,可以根据目标文档的文档标识与目标用户的对应关系对目标文档进行聚类,避免目标文档包含的词语较少,和分词的准确度低导致的文档聚类的准确度低的问题,进而提高文档聚类的准确度。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种文档聚类的方法的流程图;图2为本专利技术实施例提供的一种确定目标用户的方法的流程图;图3为本专利技术实施例提供的一种文档聚类的装置的结构图;图4为本专利技术实施例提供的一种电子设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。为了更有效地实现目标文档的推荐和搜索,可以对各目标文档进行聚类分析,以获得每一目标文档属于预设的每一类别的概率。现有技术利用LDA等聚类分析模型对各目标文档进行聚类分析时,要求每一目标文档都包含尽量多的词语。当目标文档的文本长度较短时,或者分词的准确度较低时,都会导致获得的每一目标文档属于预设的每一类别的概率不够准确。基于上述考虑,本本文档来自技高网...
一种文档聚类的方法和装置

【技术保护点】
一种文档聚类的方法,其特征在于,所述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。

【技术特征摘要】
1.一种文档聚类的方法,其特征在于,所述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述用户行为信息对应的用户行为时间;所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。3.根据权利要求1所述的方法,其特征在于,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。4.根据权利要求3所述的方法,其特征在于,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;根据该目标文档对应的用户分享信息确定该目标文档的分享用户;根据该目标文档对应的用户评论信息确定该目标文档的评论用户;将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。5.根据权利要求1所述的方法,其特征在于,在所述将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练之后,所述方法还包括:输出每一所述目标用户属于每一所述类别的第二概率;根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。6.一种文档聚类的装置,其特征在于,所述装置包括:第一获取模块,用于获取待聚类的各目标文档对应的用户行为信息;确定模块,用于根据所述用户行为信息,确定每一目...

【专利技术属性】
技术研发人员:王志华宋华李雪查强
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1