The invention relates to a text based similarity determination method and device, which belongs to the Internet technology field. The method includes: obtaining the historical network browsing record of the candidate user, obtaining the text set corresponding to the candidate users according to the historical network browsing record, obtaining the conditional probability of the text set in the reference user corresponding to the reference user in the pre calculated set of text, and according to the corresponding text of the candidate user. The set and the conditional probability of each text are obtained for the first text feature vector corresponding to the candidate user; the first text feature vector of the candidate user is entered into a pre trained random forest model, and the similarity value of the candidate user and the reference user is obtained according to the output of the random forest model. The above technical scheme solves the problem that the similarity between users can not be calculated accurately, and the similarity between the candidate and the reference users can be accurately calculated through the relevant information of the text, and then the similar users of the reference users can be found.
【技术实现步骤摘要】
基于文本的相似度确定方法、装置及计算机设备
本专利技术涉及互联网
,特别是涉及基于文本的相似度确定方法、装置、计算机可读存储介质及计算机设备。
技术介绍
目前,通过查找相似用户并对相似用户推送消息或发送广告等已经成为一种有效的营销方式。这种营销方式的前提是要精准地确定计算用户之间相似度。传统基于文本确定相似度的方法有k-means聚类等。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:传统确定相似度的方法或者不适用于基于词语来确定相似度;或者结果具有很大的随机性,导致每次对同一批用户进行聚类得出的结果不同。因此,有必要找到一种能通过文本的相关信息计算用户之间相似度的方法。
技术实现思路
基于此,本专利技术提供了基于文本的相似度确定方法及装置,能基于文本的相关信息准确地计算用户之间的相似度,从而可以确定参考用户的相似用户。本专利技术实施例的内容如下:一种基于文本的相似度确定方法,包括:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。在其中一个实施例中,所述将所述候选用户的第一文本特征向量输入预先训练的随机森林模型的步骤之前,还包括:构建样本用户集,所述样本用户集中包括参考用户以及非参考用户;获取样本用户集中各样本 ...
【技术保护点】
1.一种基于文本的相似度确定方法,其特征在于,包括以下步骤:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。
【技术特征摘要】
1.一种基于文本的相似度确定方法,其特征在于,包括以下步骤:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。2.根据权利要求1所述的基于文本的相似度确定方法,其特征在于,所述将所述候选用户的第一文本特征向量输入预先训练的随机森林模型的步骤之前,还包括:构建样本用户集,所述样本用户集中包括参考用户以及非参考用户;获取样本用户集中各样本用户的历史网络浏览记录,得到各样本用户对应的文本集合;计算各样本用户的文本集合中各文本的所述条件概率;根据各样本用户对应的文本集合以及其中各文本的条件概率,得到样本用户集中各样本用户对应的第二文本特征向量;从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量;根据所述训练文本特征向量对随机森林模型进行训练。3.根据权利要求2所述的基于文本的相似度确定方法,其特征在于,所述从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量的步骤,包括:分别选取所述第二文本特征向量中按条件概率值大小排序在前的多个文本特征向量和排序在后的多个文本特征向量,作为对应样本用户的训练文本特征向量。4.根据权利要求1至3任一项所述的基于文本的相似度确定方法,其特征在于,所述根据所述历史网络浏览记录得到所述候选用户对应的文本集合的步骤,包括:根据所述历史网络浏览记录得到所述候选用户对应的词语,去除所述词语中的停用词,得到所述候选用户对应的文本集合。5.根据权利要求4所述的基于文本的相似度确定方法,其特征在于,所述获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率的步骤之前,还包括:获取所述文本集合中各个词语的词频特征,根据所述词频特征分别计算各个词语落入参考用户对应的...
【专利技术属性】
技术研发人员:周涛,李百川,李展铿,
申请(专利权)人:有米科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。