基于文本的相似度确定方法、装置及计算机设备制造方法及图纸

技术编号:18497246 阅读:26 留言:0更新日期:2018-07-21 20:15
本发明专利技术涉及基于文本的相似度确定方法及装置,属于互联网技术领域。所述方法包括:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。上述技术方案,解决了不能准确计算用户之间相似度的问题,能通过文本的相关信息准确地计算候选用户与参考用户的相似度,进而可以找出参考用户的相似用户。

Text based similarity determination method, device and computer equipment

The invention relates to a text based similarity determination method and device, which belongs to the Internet technology field. The method includes: obtaining the historical network browsing record of the candidate user, obtaining the text set corresponding to the candidate users according to the historical network browsing record, obtaining the conditional probability of the text set in the reference user corresponding to the reference user in the pre calculated set of text, and according to the corresponding text of the candidate user. The set and the conditional probability of each text are obtained for the first text feature vector corresponding to the candidate user; the first text feature vector of the candidate user is entered into a pre trained random forest model, and the similarity value of the candidate user and the reference user is obtained according to the output of the random forest model. The above technical scheme solves the problem that the similarity between users can not be calculated accurately, and the similarity between the candidate and the reference users can be accurately calculated through the relevant information of the text, and then the similar users of the reference users can be found.

【技术实现步骤摘要】
基于文本的相似度确定方法、装置及计算机设备
本专利技术涉及互联网
,特别是涉及基于文本的相似度确定方法、装置、计算机可读存储介质及计算机设备。
技术介绍
目前,通过查找相似用户并对相似用户推送消息或发送广告等已经成为一种有效的营销方式。这种营销方式的前提是要精准地确定计算用户之间相似度。传统基于文本确定相似度的方法有k-means聚类等。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:传统确定相似度的方法或者不适用于基于词语来确定相似度;或者结果具有很大的随机性,导致每次对同一批用户进行聚类得出的结果不同。因此,有必要找到一种能通过文本的相关信息计算用户之间相似度的方法。
技术实现思路
基于此,本专利技术提供了基于文本的相似度确定方法及装置,能基于文本的相关信息准确地计算用户之间的相似度,从而可以确定参考用户的相似用户。本专利技术实施例的内容如下:一种基于文本的相似度确定方法,包括:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。在其中一个实施例中,所述将所述候选用户的第一文本特征向量输入预先训练的随机森林模型的步骤之前,还包括:构建样本用户集,所述样本用户集中包括参考用户以及非参考用户;获取样本用户集中各样本用户的历史网络浏览记录,得到各样本用户对应的文本集合;计算各样本用户的文本集合中各文本的所述条件概率;根据各样本用户对应的文本集合以及其中各文本的条件概率,得到样本用户集中各样本用户对应的第二文本特征向量;从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量;根据所述训练文本特征向量对随机森林模型进行训练。在其中一个实施例中,所述从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量的步骤,包括:分别选取所述第二文本特征向量中按条件概率值大小排序在前的多个文本特征向量和排序在后的多个文本特征向量,作为对应样本用户的训练文本特征向量。在其中一个实施例中,所述根据所述历史网络浏览记录得到所述候选用户对应的文本集合的步骤,包括:根据所述历史网络浏览记录得到所述候选用户对应的词语,去除所述词语中的停用词,得到所述候选用户对应的文本集合。在其中一个实施例中,所述获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率的步骤之前,还包括:获取所述文本集合中各个词语的词频特征,根据所述词频特征分别计算各个词语落入参考用户对应的文本集合的条件概率。在其中一个实施例中,通过如下公式计算各个词语落入参考用户对应的文本集合的条件概率:其中,y为文本集合标签,0表示候选用户对应的文本集合,1表示参考用户对应的文本集合;i为词语的标识,表示第i个词语,词语总共有n个;θyi是第i个词语在文本集合y中出现的频繁度;Nyi表示第i个词语在文本集合y中出现的次数,Ny为所有词语在文本集合y中出现的次数;α为预设的平滑因子;λi是在第i个词语落入参考用户对应的文本集合的概率。在其中一个实施例中,所述将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值的步骤之后,还包括:若所述候选用户对应的相似度值高于预设的阈值,则所述候选用户为所述参考用户的相似用户。在其中一个实施例中,所述随机森林中的投票函数为:其中,H(x)为投票函数;x为输入的文本特征向量;h为决策树,t为第t棵树,所述随机森林中总共有T颗树。相应的,本专利技术实施例提供一种基于文本的相似度确定装置,包括:条件概率计算模块,用于获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;第一特征向量获取模块,用于根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;相似度值确定模块,用于将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤,通过其存储的计算机程序。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。上述技术方案,根据候选用户的历史网络浏览记录,得到该候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;确定所述候选用户对应的第一文本特征向量,并将该第一文本特征向量输入预先训练的随机森林模型,得到所述候选用户与参考用户的相似度值。通过这样的方式能准确计算候选用户与参考用户的相似度,确定该候选用户是否为该参考用户的相似用户,进而有针对性地对相似用户进行相应的操作,防止对所有用户都进行该操作,能有效解决操作成本。附图说明图1为一个实施例中基于文本的相似度确定方法的示意性流程图;图2为一实施例中基于文本的相似度确定方法的应用实例;图3为一实施例中基于文本的相似度确定装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例以网络营销为例进行描述,但是本专利技术实施例的基于文本的相似度确定方法、装置、计算机设备和存储介质并不限于解决网络营销中的问题,还可以用于解决其他相似度确定的应用场景中的问题。在进行某一网络营销时,往往通过网络用户的历史数据来确定投放广告的用户群。在这些网络用户中,有一部分属于经常进行特定网络操作的用户,如:对于投放电视广告的网络营销,某些用户经常观看某一与该广告对应的产品的网络视频,则这些用户属于这一产品的种子用户(参考用户)。对于某些与前述参考用户的网络操作过程类似的用户,属于比较有意向的用户,对这些用户投放相应的广告具有较强的针对性,回报率更高。例如:有一批少量的活跃游戏种子用户,对这批种子用户投放游戏广告消耗的成本较低,对与种子用户类似的用户大量地定向投放,可以获得较高的收益。因此,有必要计算用户之间的相似度,进而找出参考用户的相似用户,本专利技术实施例拟解决基于用户的文本信息计算用户之间相似度的问题。传统确定参考用户的相似用户的方法有:方法一:步骤1,将用户的安装包列表通过bag-of-words(bow)方法表达为1/0特征,通过该列表训练逻辑回归模型;步骤2,将逻辑回归模型的输出加上其他三种特征(安装的基本应用比例,付费应用数和平均付费价格),作为输入来训练GBDT(GradientBoostingDecisionTree,是一种迭代的决策树算法)分类模型,分类为1的即为相似用户。其中bow特征在文本类的应用本文档来自技高网...

【技术保护点】
1.一种基于文本的相似度确定方法,其特征在于,包括以下步骤:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。

【技术特征摘要】
1.一种基于文本的相似度确定方法,其特征在于,包括以下步骤:获取候选用户的历史网络浏览记录,根据所述历史网络浏览记录得到所述候选用户对应的文本集合;获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率;根据所述候选用户对应的文本集合以及其中各文本的条件概率,得到所述候选用户对应的第一文本特征向量;将所述候选用户的第一文本特征向量输入预先训练的随机森林模型,根据所述随机森林模型的输出得到所述候选用户与参考用户的相似度值。2.根据权利要求1所述的基于文本的相似度确定方法,其特征在于,所述将所述候选用户的第一文本特征向量输入预先训练的随机森林模型的步骤之前,还包括:构建样本用户集,所述样本用户集中包括参考用户以及非参考用户;获取样本用户集中各样本用户的历史网络浏览记录,得到各样本用户对应的文本集合;计算各样本用户的文本集合中各文本的所述条件概率;根据各样本用户对应的文本集合以及其中各文本的条件概率,得到样本用户集中各样本用户对应的第二文本特征向量;从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量;根据所述训练文本特征向量对随机森林模型进行训练。3.根据权利要求2所述的基于文本的相似度确定方法,其特征在于,所述从所述第二文本特征向量中选取多个文本特征向量作为对应样本用户的训练文本特征向量的步骤,包括:分别选取所述第二文本特征向量中按条件概率值大小排序在前的多个文本特征向量和排序在后的多个文本特征向量,作为对应样本用户的训练文本特征向量。4.根据权利要求1至3任一项所述的基于文本的相似度确定方法,其特征在于,所述根据所述历史网络浏览记录得到所述候选用户对应的文本集合的步骤,包括:根据所述历史网络浏览记录得到所述候选用户对应的词语,去除所述词语中的停用词,得到所述候选用户对应的文本集合。5.根据权利要求4所述的基于文本的相似度确定方法,其特征在于,所述获取预先计算的所述文本集合中各文本落入参考用户对应的文本集合的条件概率的步骤之前,还包括:获取所述文本集合中各个词语的词频特征,根据所述词频特征分别计算各个词语落入参考用户对应的...

【专利技术属性】
技术研发人员:周涛李百川李展铿
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1