当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于多类特征融合的新兴热点话题检测系统技术方案

技术编号:18668321 阅读:37 留言:0更新日期:2018-08-14 20:39
本发明专利技术涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,用于对话题进行预测。本发明专利技术基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。

A new hot topic detection system based on multi class feature fusion

The invention relates to a novel hot topic detection system based on multi-class feature fusion, which comprises a data preprocessing module for pre-processing microblog text, a hierarchical sequence model for training a bi-directional cyclic neural network model, a bi-directional LSTM network for training input microblog text, and a word sequence coding. Level 1 is used to vectorize each word in the sentence to form a preliminary vector representation; Level 2 is used to construct static feature vectors for micro-blog sentences and link them with the dynamic features of the neural network to form a vector representation of micro-blog sentences; Level 2 is used to construct static dialogue topics State feature vectors are linked with the neural network dynamic features of the layer to form a vector representation of the topic; topic prediction module is used to predict the topic. The invention is based on a bidirectional long-term and short-term memory network structure, and adds corresponding dynamic and static features to improve the detection ability of emerging hot topics.

【技术实现步骤摘要】
一种基于多类特征融合的新兴热点话题检测系统
本专利技术涉及自然语言处理领域,特别是一种基于多类特征融合的新兴热点话题检测系统。
技术介绍
当前,存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法,其基本思想是根据相应的推理公式或理论来求解话题的评价依据,如转发增长率、评论数增长率、用户增长率等等,作为真是特征,再使用评判函数(如分类算法)来判定是否是新兴热点话题。当前,还存在着一些偏向于使用话题的传播特征来检测新兴热点话题,其基本思想是利用相关特定的数据结构(如:树、图、粒子群、神经网络等等)来计算或训练话题的特征,这里特征偏向于传播型,也即数据间是有联系的,不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。然而,这些方法模型虽然在一定程度上取得了相应的成果,也推进了话题检测任务的发展;但是也存在不足的地方,基于话题内容静态特征的方法,固然在新兴热点话题预测上有一定准确率,但其缺少对话题文本的上下文语义分析,因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息,在新兴热点话题预测时间方面有一定延迟,因此其准确率不够,但它在话题追踪时有较好的性能。针对上述的不足之处,提出将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。
技术实现思路
本专利技术的目的在于提供一种基于多类特征融合的新兴热点话题检测系统,以克服现有技术中存在的缺陷。为实现上述目的,本专利技术的技术方案是:一种基于多类特征融合的新兴热点话题检测系统,包括:一数据预处理模块,用于对微博文本进行预处理;一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。在本专利技术一实施例中,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。在本专利技术一实施例中,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。在本专利技术一实施例中,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即在本专利技术一实施例中,在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:其中,表示i时刻,微博t的转发数;表示i时刻,微博t的评论数。在本专利技术一实施例中,在所述话题级别特征求解层,为了识别新兴热点话题,提取话题每个时刻点的新兴特征,包括:转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值。在本专利技术一实施例中,在所述话题级别特征求解层,记话题T从第一篇微博被检测到当前时刻t有n个时间窗口;记feature1是话题T在n个时间窗口内的转发数增长率:其中,Rti为话题T在第i个时间窗口时的转发次数;记feature2是话题T在n个时间窗口内的用户数增长率:其中,Ui表示话题T在第i个时间窗口时的参与用户数量;记feature3是话题T在n个时间窗口内的评论数增长率:其中,Repi表示话题T在第i个时间窗口时的评论数;记话题T对应的用户集合为UT={u1,u2,...,um},对于话题T,每个用户ui在话题T中的权威值通过如下方式获取:其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量;记话题T对应的微博集合为TW={tw1,tw2,...,twm},记feature4是话题T的相关微博累计值增长率:其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值;记为话题T在第i个时间窗口时的新颖值,为热度值:其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;记feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,通过如下获取:其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为预设个数时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。相较于现有技术,本专利技术具有以下有益效果:本专利技术提出的一种基于多类特征融合的新兴热点话题检测系统,将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,能够从中文微博数据中学习高质量的话题向量特征,最终检测出新兴热点话题,并提高新兴热点话题检测能力。附图说明图1为本专利技术一实施例中在社交媒介中基于多类特征融合的分层循环神经网络模型的示意配置图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术一种基于多类特征融合的新兴热点话题检测系统,如图1所示,包括:数据预处理模块,用于对数据进行预先处理,用于去除文本中的链接,特殊字符,表情符号,标点符号等等,为后阶段的运算提供高可用高质量的数据;分层序列模型,用于训练双向循环神经网络模型,使用双向的LSTM网络,训练输入的微博文本,得到高质量的话题向量表示,提高预测准确率,为后面的预测任务输送高质量的词向量、句子向量和话题向量;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;并使用word2vec对句子分词的一个初步向量化。句子级别静态特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别静态特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,完成对话题的预测工作,经过softmax层输出各个话题是新兴热点话题和本文档来自技高网...

【技术保护点】
1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:一数据预处理模块,用于对微博文本进行预处理;一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。

【技术特征摘要】
1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:一数据预处理模块,用于对微博文本进行预处理;一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。2.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。3.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。4.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即5.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:其中...

【专利技术属性】
技术研发人员:廖祥文陈国龙殷明刚杨定达
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1