当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度学习模型针对问答社区进行问题热度预测的方法和系统技术方案

技术编号:23558321 阅读:58 留言:0更新日期:2020-03-25 03:54
本发明专利技术涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。包括:S1.获取问答社区中的历史信息,对数据进行预处理,利用数据训练问题热度预测神经网络模型,问题热度预测模型利用了深度神经网络技术和点过程数学模型,包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,可得到有最优参数的预测模型;S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。本发明专利技术充分利用问答社区的历史数据,满足了需求方对预测结果更细致更准确的需求,使需求方可以根据预测出的问题热度提早采取相应的应对策略。

Method and system of question heat prediction for Q & a community based on deep learning model

【技术实现步骤摘要】
基于深度学习模型针对问答社区进行问题热度预测的方法和系统
本专利技术属于计算机
,更具体地,涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。
技术介绍
在线问答社区,比如说知乎、Quora、StackOverflow等,提供了一个方便的平台让用户可以随时随地地提出他们的问题以及分享他们的回答。近几年,问答社区呈现出爆发式增长,并成为了用户交换和查找信息的重要在线平台。如何有效地利用问答社区中现有的数据来学习和预测一个问题的热度成为一个具有挑战性的研究课题。专利技术人在实现本专利技术过程中发现,问题的热度预测对社区问答的经营和发展非常重要,这可以帮助问答社区的经营者更好地对内容进行排序、更好地发现问题热点趋势、更好地投放广告等。目前对问答社区中问题热度预测的技术方案非常少,现有的方法也只是对问题的热度进行简单的二分类预测,即判断给定问题是否热门,这种定性的分析非常简单粗糙,且该方法并没有使用深度学习模型,而是人工提取数据特征,过程繁琐,效率低下,效果不佳,难以实际投入使用。>现有技术只是简单地本文档来自技高网...

【技术保护点】
1.一种基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,包括以下步骤:/nS1.获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,即可得到有最优参数的预测模型;/nS2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。/n

【技术特征摘要】
1.一种基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,包括以下步骤:
S1.获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,即可得到有最优参数的预测模型;
S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。


2.根据权利要求1所述的基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,所述的步骤S1中,训练模型时具体包括以下步骤:
S11.数据预处理:获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数;
将这些信息进行一定的预处理后,得到模型的输入:



式中,Si表示第i个问题以及它的回答所形成的事件流,表示该问题下第k个回答的发表时间,表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息;每个问题以及它的回答形成一个时间序列,作为后续输入;
S12.数据编码:将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果;
S13.解码阶段:该阶段维护着一个解码状态sk,用于记录前面的解码信息,k代表以前面k个回答进行热度预测;在进行第k步解码时计算出k个条件强度函数:









式中,fλ和fα分别代表两个不同的神经网络;计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程;
S14.注意力机制:在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同,注意力分布可以看作是每个输入在进行问题热度预测时的权重,用先验注意力分布可以得到最终的条件强度函数:



当观察到新的输入时,可以利用贝叶斯法则进行后验注意力的计算,并更新解码状态:



式中,RNN表示一个循环神经网络;
S15.预测问题热度:一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:




即为下一个回答出现时间的预测;
同样可以计算未来一段时间t内,事件发生数量的期望为:



式中,即为未来t时间内新回答出现数量的预测;
S16.寻求最优参数:训练数据中包含真实的tk+1和Nt,可以计算模型的损失函数,即可通过后向传播算法来迭代更新参数;待模型稳定后,即可训练得到最优参数模型。


3.根据权利要求2所述的基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,所述的S2步骤中问题热度预测具体包括:
S21.获取待预测问题以及该问题现有的回答,与步骤S11一样进行预处理,得到输入数据;
S22.将输入数据输入到模型中,得到条件强度函数λ(t)的预测;
S23.利用步骤S15中的公式得到下一个回答出现时间的预测,以及新回答数量的预测,其中回答数量的预测可按需要自定义预测时间的区间。


4.一种基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于,包括:
预处理模块:用于获取搜集到的历史数据,对其进行...

【专利技术属性】
技术研发人员:温志伟梁上松蒙在桥
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1