论坛帖子推荐方法、系统、设备及存储介质技术方案

技术编号:21343589 阅读:23 留言:0更新日期:2019-06-13 22:30
本发明专利技术提供了一种论坛帖子推荐方法、系统、设备及存储介质,该方法包括:采集论坛中各个帖子的文本;计算所述帖子的文本中各个词的词向量;获取用户浏览的历史帖子记录;根据各个所述帖子的词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;根据计算得到的相似度向用户推荐论坛帖子。通过采用本发明专利技术的方案,基于浅层双层神经网络模型实现推荐推荐与用户浏览的历史帖子相似度高的帖子,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度,进而提高用户点击通过率。

Recommendation methods, systems, devices and storage media for forum posts

The invention provides a forum post recommendation method, system, equipment and storage medium, which includes: collecting the text of each post in the forum; calculating the word vectors of each word in the text of the said post; acquiring the record of historical Posts browsed by users; and calculating the similarity between the historical Posts browsed by users and other posts in the Forum according to the word vectors of each said post. Degree: Recommend forum posts to users according to the calculated similarity. By adopting the scheme of the invention, the posts with high similarity between recommendation and historical Posts browsed by users can be realized based on the shallow double-layer neural network model, which can achieve better results in the field of text similarity calculation, fully exploit the hidden features of user preferences, better reflect user preferences, thereby improving user satisfaction, and thereby improving user click through. Excessive rate.

【技术实现步骤摘要】
论坛帖子推荐方法、系统、设备及存储介质
本专利技术涉及计算机网络
,尤其涉及一种论坛帖子推荐方法、系统、设备及存储介质。
技术介绍
在司机论坛中,司机会把自己的一些意见、建议反馈出来,在反馈信息的同时,也可以通过PGC(ProfessionalGeneratedContent,专业生成内容)产生一些高质量文章,解答司机运输、货运交接过程中的一些疑惑。在货物运输过程中,司机也会分享一些路途中的见闻、反馈自己对APP的一些观点等等。与此同时司机也会阅读论坛中的其他用户或者PGC的论坛帖子。为了提升司机的阅读效率,现有的论坛会分析司机的喜好,为司机推荐司机可能感兴趣的帖子来阅读。现有的论坛推荐中,使用的技术往往是基于有监督的分类学习方法。现有技术大多通过主观性的从文章中提取特征,然后对所有文章进行multilabel(多重标签)标记,然后基于此数据,进行有监督训练,最终得到训练结果。例如首先将论坛帖子中各个词的数据通过NaiveBayes(朴素贝叶斯)模型,计算给定类别的条件概率,最终通过生成式的方式得到最大可能类别。通过分析用户历史阅读记录,对用户阅读的文章进行排序,根据该用户对于某文章的喜爱程度,优先推荐同类别的文章。然而,主观性的特征提取很难发现用户喜好中的隐藏特征;而且根据历史经验来看,朴素贝叶斯模型对于文本相似度性能并非太好;此外对于用户喜好文章列表,仅仅给出排序,无法量化喜好程度,推荐效果欠佳。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供一种论坛帖子推荐方法、系统、设备及存储介质,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度。本专利技术实施例提供一种论坛帖子推荐方法,所述方法包括如下步骤:采集论坛中各个帖子的文本;计算所述帖子的文本中各个词的Word2Vec词向量;获取用户浏览的历史帖子记录;根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;根据计算得到的相似度向用户推荐论坛帖子。可选地,所述采集论坛中各个帖子的文本之后,还包括采用jieba分词方法对各个帖子的文本进行分词的步骤。可选地,所述计算所述帖子的文本中各个词的Word2Vec词向量,包括如下步骤:计算所述帖子的文本中各个词的独热编码向量;将所述各个词的独热编码向量输入至训练好的Word2Vec模型,得到各个词的Word2Vec词向量,得到各个帖子的Word2Vec词向量;可选地,所述Word2Vec模型为Skip-gram模型,所述Skip-gram模型包括输入层、隐藏神经网络层和输出层,所述各个词的独热编码向量输入所述输入层,所述隐藏层对所述独热编码向量进行降维处理,所述输出层对所述隐藏神经网络层的输出进行Softmax回归,输出与各个词的独热编码向量维度相同的Word2Vec词向量。可选地,所述计算所述帖子的文本中各个词的Word2Vec词向量之后,还包括如下步骤:对所述帖子中各个词的词向量进行筛选,将符合预设筛选条件的词向量筛除。可选地,所述计算用户浏览的历史帖子与论坛中其他各个帖子的相似度,包括如下步骤:计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度,并将计算得到的相似度结果取平均值,作为两个帖子的相似度。可选地,采用余弦相似度计算方法或欧氏距离计算方法计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度。可选地,所述根据计算得到的相似度向用户推荐论坛帖子,包括如下步骤:判断一论坛帖子与用户浏览的历史帖子的相似度是否大于预设相似度阈值;如果是,则将该论坛帖子作为推荐的论坛帖子。可选地,所述论坛帖子推荐方法还包括如下步骤:获取用户对于每次推荐的论坛帖子的点击数据;计算用户实际点击的推荐帖子与推荐的论坛帖子的数量比值;判断所述数量比值是否处于预设比值范围内;如果所述数量比值大于所述预设比值范围的上限值,则调低所述预设相似度阈值;如果所述数量比值小于所述预设比值范围的下限值,则调高所述预设相似度阈值。本专利技术实施例还提供一种论坛帖子推荐系统,应用于所述的论坛帖子推荐方法,所述系统包括:文本采集模块,用于采集论坛中各个帖子的文本;词向量计算模块,用于计算所述帖子的文本中各个词的Word2Vec词向量;用户记录获取模块,用于获取用户浏览的历史帖子记录;相似度计算模块,用于根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;帖子推荐模块,用于根据计算得到的相似度向用户推荐论坛帖子。本专利技术实施例还提供一种论坛帖子推荐设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的论坛帖子推荐方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的论坛帖子推荐方法的步骤。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。本专利技术所提供的论坛帖子推荐方法、系统、设备及存储介质具有下列优点:本专利技术解决了现有技术中的问题,基于浅层双层神经网络Word2Vec模型实现推荐与用户浏览的历史帖子相似度高的帖子,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度,进而提高用户点击通过率,不仅可以应用于货运物流的特定场景下司机论坛帖子的推荐,也可以应用于其他场景的论坛中的相似帖子推荐。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。图1是本专利技术一实施例的论坛帖子推荐方法的流程图;图2是本专利技术一实施例的Skip-gram模型的示意图;图3是本专利技术根据反馈数据调整相似度阈值的流程图;图4是本专利技术一实施例的论坛帖子推荐系统的结构示意图;图5是本专利技术一实施例的论坛帖子推荐设备的示意图;图6是本专利技术一实施例的计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。如图1所示,本专利技术实施例提供一种论坛帖子推荐方法,所述方法包括如下步骤:S100:采集论坛中各个帖子的文本;S200:计算所述帖子的文本中各个词的Word2Vec词向量;S300:获取用户浏览的历史帖子记录;S400:根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;S500:根据计算得到的相似度向用户推荐论坛帖子。此处,各个步骤的编号仅为区分各个步骤本文档来自技高网...

【技术保护点】
1.一种论坛帖子推荐方法,其特征在于,包括如下步骤:采集论坛中各个帖子的文本;计算所述帖子的文本中各个词的Word2Vec词向量;获取用户浏览的历史帖子记录;根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;根据计算得到的相似度向用户推荐论坛帖子。

【技术特征摘要】
1.一种论坛帖子推荐方法,其特征在于,包括如下步骤:采集论坛中各个帖子的文本;计算所述帖子的文本中各个词的Word2Vec词向量;获取用户浏览的历史帖子记录;根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;根据计算得到的相似度向用户推荐论坛帖子。2.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述采集论坛中各个帖子的文本之后,还包括采用jieba分词方法对各个帖子的文本进行分词的步骤。3.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算所述帖子的文本中各个词的Word2Vec词向量,包括如下步骤:计算所述帖子的文本中各个词的独热编码向量;将所述各个词的独热编码向量输入至训练好的Word2Vec模型,得到各个词的Word2Vec词向量,得到各个帖子的Word2Vec词向量;4.根据权利要求3所述的论坛帖子推荐方法,其特征在于,所述Word2Vec模型为Skip-gram模型,所述Skip-gram模型包括输入层、隐藏神经网络层和输出层,所述各个词的独热编码向量输入所述输入层,所述隐藏层对所述独热编码向量进行降维处理,所述输出层对所述隐藏神经网络层的输出进行Softmax回归,输出与各个词的独热编码向量维度相同的Word2Vec词向量。5.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算所述帖子的文本中各个词的Word2Vec词向量之后,还包括如下步骤:对所述帖子中各个词的词向量进行筛选,将符合预设筛选条件的词向量筛除。6.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算用户浏览的历史帖子与论坛中其他各个帖子的相似度,包括如下步骤:计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度,并将计算得到的相似度结果取平...

【专利技术属性】
技术研发人员:刘祥罗竞佳邓金秋沙韬伟
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1