The invention relates to a novel hot topic detection system based on multi-class feature fusion, which comprises a data preprocessing module for pre-processing microblog text, a hierarchical sequence model for training a bi-directional cyclic neural network model, a bi-directional LSTM network for training input microblog text, and a word sequence coding. Level 1 is used to vectorize each word in the sentence to form a preliminary vector representation; Level 2 is used to construct static feature vectors for micro-blog sentences and link them with the dynamic features of the neural network to form a vector representation of micro-blog sentences; Level 2 is used to construct static dialogue topics State feature vectors are linked with the neural network dynamic features of the layer to form a vector representation of the topic; topic prediction module is used to predict the topic. The invention is based on a bidirectional long-term and short-term memory network structure, and adds corresponding dynamic and static features to improve the detection ability of emerging hot topics.
【技术实现步骤摘要】
一种基于多类特征融合的新兴热点话题检测系统
本专利技术涉及自然语言处理领域,特别是一种基于多类特征融合的新兴热点话题检测系统。
技术介绍
当前,存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法,其基本思想是根据相应的推理公式或理论来求解话题的评价依据,如转发增长率、评论数增长率、用户增长率等等,作为真是特征,再使用评判函数(如分类算法)来判定是否是新兴热点话题。当前,还存在着一些偏向于使用话题的传播特征来检测新兴热点话题,其基本思想是利用相关特定的数据结构(如:树、图、粒子群、神经网络等等)来计算或训练话题的特征,这里特征偏向于传播型,也即数据间是有联系的,不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。然而,这些方法模型虽然在一定程度上取得了相应的成果,也推进了话题检测任务的发展;但是也存在不足的地方,基于话题内容静态特征的方法,固然在新兴热点话题预测上有一定准确率,但其缺少对话题文本的上下文语义分析,因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息,在新兴热点话题预测时间方面有一定延迟,因此其准确率不够,但它在话题追踪时有较好的性能。针对上述的不足之处,提出将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。
技术实现思路
本专利技术的目的在于提供一种基于多类特征融合的新兴热点话题检测系统,以克服现有技术中存在的缺陷。为实现上述目的,本专利技术的技术方案是:一种基于多类特征融合的新兴热点话题检测系统,包括:一数据预处理模块, ...
【技术保护点】
1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:一数据预处理模块,用于对微博文本进行预处理;一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。
【技术特征摘要】
1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:一数据预处理模块,用于对微博文本进行预处理;一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。2.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。3.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。4.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即5.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:其中...
【专利技术属性】
技术研发人员:廖祥文,陈国龙,殷明刚,杨定达,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。