The present invention provides a method and device for document clustering. The method includes: obtaining the corresponding user behavior information of the target documents to be clustered, determining the target user of each target document according to the user behavior information, the corresponding relationship between the document identification of the sample document and the sample user, and the presupposition. The number of classes is input into the preset clustering analysis model for training, and each target document can be output to the first probability of each class. By using the method of the present invention, the target document can be clustered according to the correspondence of the document and the target user, so as to avoid the few words contained in the target document and the low accuracy of the document clustering resulting from the low accuracy of the word segmentation, and then improve the accuracy of the document clustering.
【技术实现步骤摘要】
一种文档聚类的方法和装置
本专利技术涉及文本分析
,特别是涉及一种文档聚类的方法和装置。
技术介绍
一个文档通常可以属于多个类别,例如,一个关于教育的文档所属的类别为教育类,如果该文档主要介绍的是艺术教育,该文档所属的类别还可以包括艺术类。对文档进行聚类分析,可以获得文档属于不同类别的概率,进而可以实现文档的推荐和搜索。现有的文档聚类步骤如下:首先对各目标文档进行分词,获得每个目标文档包含的词语;然后计算每个目标文档中各词语出现的概率;根据计算得到的概率,利用LDA(LatentDirichletAllocation,潜在狄利克雷分配模型)等聚类分析模型进行训练学习。LDA可以根据预设的类别的数目,计算每一目标文档属于预设的每一类别的概率。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:利用LDA等聚类分析模型进行训练学习,要求每一目标文档都包含尽量多的词语。当目标文档的文本长度较短时,对目标文档进行分词,得到的目标文档包含的词语较少,或者分词的准确度较低,都会导致获得的每一目标文档属于预设的每一类别的概率的不够准确,即文档聚类的准确度低。
技术实现思路
本专利技术实施例的目的在于提供一种文档聚类的方法、装置、电子设备及计算机可读存储介质,以提高文档聚类的准确度。具体技术方案如下:第一方面,为了达到上述目的,本专利技术实施例公开了一种文档聚类的方法,上述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类 ...
【技术保护点】
一种文档聚类的方法,其特征在于,所述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。
【技术特征摘要】
1.一种文档聚类的方法,其特征在于,所述方法包括:获取待聚类的各目标文档对应的用户行为信息;根据所述用户行为信息,确定每一目标文档的目标用户;将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练,输出每一目标文档属于每一类别的第一概率,其中,所述样本文档包括上一次文档聚类时采用的文档和本次待聚类的各目标文档,所述样本用户包括所述样本文档对应的用户。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述用户行为信息对应的用户行为时间;所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据所述用户行为信息对应的用户行为时间,确定用户行为时间与当前时间最接近的预设的第一数目个目标用户。3.根据权利要求1所述的方法,其特征在于,所述用户行为信息包含以下信息之一或任意组合:用户浏览信息、用户收藏信息、用户分享信息和用户评论信息。4.根据权利要求3所述的方法,其特征在于,在所述用户行为信息包含用户浏览信息、用户收藏信息、用户分享信息和用户评论信息时,所述根据所述用户行为信息,确定每一目标文档的目标用户,包括:针对每一目标文档,根据该目标文档对应的用户浏览信息确定该目标文档的浏览用户;根据该目标文档对应的用户收藏信息确定该目标文档的收藏用户;根据该目标文档对应的用户分享信息确定该目标文档的分享用户;根据该目标文档对应的用户评论信息确定该目标文档的评论用户;将所述浏览用户、所述收藏用户、所述分享用户和所述评论用户,确定为该目标文档的目标用户。5.根据权利要求1所述的方法,其特征在于,在所述将样本文档的文档标识与样本用户的对应关系,以及预设的类别数目,输入至预设的聚类分析模型进行训练之后,所述方法还包括:输出每一所述目标用户属于每一所述类别的第二概率;根据所述第一概率和所述第二概率,利用预设的关联算法,计算每一所述目标用户与每一目标文档的关联度。6.一种文档聚类的装置,其特征在于,所述装置包括:第一获取模块,用于获取待聚类的各目标文档对应的用户行为信息;确定模块,用于根据所述用户行为信息,确定每一目...
【专利技术属性】
技术研发人员:王志华,宋华,李雪,查强,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。