一种基于语义扩充的微博话题检测和热度评估方法技术

技术编号:11870652 阅读:109 留言:0更新日期:2015-08-12 20:59
一种基于语义扩充的微博话题检测和热度评估方法,属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。本发明专利技术首先给出了微博噪声数据过滤方法,用于低信息量微博的过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效果,最后进行了微博话题热度评估,进而获取热点话题。

【技术实现步骤摘要】

本专利技术属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微 博话题检测和话题热度评估方法及系统。
技术介绍
微博是以用户关系为基础的信息分享载体,用户可以通过WEB和各种APP,以140 字以内的文字更新分享信息。用户之间通过"关注一被关注"的方式实现信息的传递,微博 平台的转发功能促进和实现了微博在用户间的快速传播。 在微博快速发展的同时获得了广泛的应用,已成为一种具有强大影响力的新型媒 体。微博具备4A特性(任何时间、任何地点、任何方式、任何人),随时随地任何人都可以成 为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研宄微博及中文微博信 息处理技术具有重要的理论和应用价值。 微博因为文本长度短,信息含量较少,会产生严重的数据稀疏问题,导致微博话题 检测等微博文本信息处理的效果都不太理想。研宄者们对解决微博数据稀疏问题和改善话 题检测效果进行了一些尝试,但是此类问题还没得到彻底解决。本专利技术先对微博噪声数据 进行了过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效 果,最后进行了微博话题热度评估,进而获取热点话题。
技术实现思路
本专利技术的目的在于通过扩充微博语义改善微博话题检测的效果并获取热点话题。 本专利技术综合考虑了微博噪声数据过滤、微博语义扩充和话题热度评估三个方面,提出了一 种基于语义扩充的微博话题检测和热度评估方法。 -种基于语义扩充的微博话题检测和热度评估方法,其特征在于包括如下步骤: 步骤1 :通过以下微博噪声数据过滤方法,过滤掉低信息量微博。 步骤I. 1 :对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示 的处理; 步骤 1. 2 : 计算信息量指数A : (1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文 档频率小于阈值η的词,得到核心词集合。 (2)计算当前微博的核心词的权重和,作为此微博的信息量指数Α。 (3)过滤掉信息量指数A低于信息量指数阈值X的微博。 计算重要性指数B : (1)计算微博集中任意两条微博μ与V的相似度simU,V)。 ⑵设置相似度阈值Θ,将大于等于阈值Θ的相似度置为1,小于阈值Θ的相似 度置为0。 (3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B。 (4)过滤掉重要性指数B低于重要性指数阈值〇的微博。 步骤2 :微博语义扩充。 步骤2. 1 :对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签 "//〇"前的内容当做"//〇"后内容的转发评论的方式,获取每一条原创微博的评论集合; 步骤2. 2 :通过微博评论选择方法对微博评论进行筛选; -条原创微博表示为一个二元组T = <d,C>,其中d为微博T的内容,C = Ic1, C2, ...,cm}为微博T的评论集合,方法包括如下步骤: 步骤2. 2. 1 :输入微博T的内容d和评论集合C ; 步骤2. 2. 2 :利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包 含"转发"字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特 殊符号及标点符号的评论; 步骤2. 2. 3 :对微博内容d和步骤2. 2. 2筛选出来的评论集合(^进行中文分词和 选择有效词处理; 步骤2. 2. 4 :对步骤2. 2. 3处理后的微博内容dmd和评论集合C 2进行聚类,生成一 个最终评论文本P ; 步骤2. 2. 5 :输出微博T的最终评论文本p。 步骤2. 3 :将微博评论中的语义信息补充进微博中; 在获取到微博T的最终评论文本p后,将评论p和微博内容dmd通过步骤 2. 3. 1-2. 3. 3结合起来,以形成对微博T的有效的语义扩充; 微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2. 2生成对应 的评论数据集P,微博语义扩充由以下三步构成: 步骤2. 3. 1 :采用向量空间模型表示数据集D和P中的文本; 步骤2. 3. 2 :特征选择,设选定的特征选择函数为f (X); 从数据集D和P中分别提取所有特征项,构成特征集合Fd和F p;对特征集合F D和 Fp中的每一项分别使用f(x)进行计算打分,当Fd和Fp中的所有项都打分完成后,按分值 由高到低进行排序得新的特征集合F' D和F' p;若需要选取N个文档属性,则从F' ^口 P P中分别选取分值高的N个项,构成最终的特征集合F" D和F" p;将特征集合F" D和 F" p取并集得到特征集合Fmd,即Fmd=F" dUF" p; 步骤2.3. 3 :特征加权,设其权重函数为G(X),若G(X)应用于数据集D中,记为 Gd (X);若G (X)应用于数据集P中,记为Gp(X),对于微博文本Cli e D,对应的评论文本p i e P, 考察每一个特征项f e Fmd; 若f e Cli,特征f在文本Cli中的权重为,-=仏(/);若μ <,特征f在文本Cli中 的权重为K = 若f e Pi,特征f在文本Pi中的权重为j =仏(/);若/ M,特征f在 文本Pi中的权重为% Λ 则特征f在文本屯中的最终权重为:且 a+b = 1,其中a和b为调节系数。 步骤3 :对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得 到若干微博话题。 步骤4 :对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降 序排列得到热点话题。 设话题集为Topic = ITP1, TP2, ...,TPJ,话题TPj (1彡j彡N)对应的微博集为Dj =Wjl, dj2,. . .,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数。微博集D」中 微博Clji (I < i < M)的热度Hdji表示为:【主权项】1. ,其特征在于:该方法包括如下 步骤, 步骤1 :通过以下微博噪声数据过滤方法,过滤掉低信息量微博; 步骤1. 1 :对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处 理; 步骤1. 2 : 计算信息量指数A : (1) 获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频 率小于阈值η的词,得到核心词集合; (2) 计算当前微博的核心词的权重和,作为此微博的信息量指数A ; (3) 过滤掉信息量指数A低于信息量指数阈值X的微博; 计算重要性指数B : (1) 计算微博集中任意两条微博μ与V的相似度sim(y, V); (2) 设置相似度阈值Θ,将大于等于阈值Θ的相似度置为1,小于阈值Θ的相似度置 为〇 ; (3) 计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B ; (4) 过滤掉重要性指数B低于重要性指数阈值〇的微博; 步骤2 :微博语义扩充; 步骤2. 1 :对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签 前的内容当做"//〇"后内容的转发评论的方式,获取每一条原创微博的评论集合; 步骤2. 2 :通过微博评论选择方法对微博评论进行筛选; 一条原创微博表示为一个二元组T = <d,C>,其中d为微博T的内容本文档来自技高网...
一种基于语义扩充的微博话题检测和热度评估方法

【技术保护点】
一种基于语义扩充的微博话题检测和热度评估方法,其特征在于:该方法包括如下步骤,步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博;步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;步骤1.2:计算信息量指数A:(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合;(2)计算当前微博的核心词的权重和,作为此微博的信息量指数A;(3)过滤掉信息量指数A低于信息量指数阈值χ的微博;计算重要性指数B:(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν);(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0;(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B;(4)过滤掉重要性指数B低于重要性指数阈值σ的微博;步骤2:微博语义扩充;步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//@”前的内容当做“//@”后内容的转发评论的方式,获取每一条原创微博的评论集合;步骤2.2:通过微博评论选择方法对微博评论进行筛选;一条原创微博表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:步骤2.2.1:输入微博T的内容d和评论集合C;步骤2.2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;步骤2.2.3:对微博内容d和步骤2.2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;步骤2.2.4:对步骤2.2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;步骤2.2.5:输出微博T的最终评论文本p;步骤2.3:将微博评论中的语义信息补充进微博中;在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤2.3.1‑2.3.3结合起来,以形成对微博T的有效的语义扩充;微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P,微博语义扩充由以下三步构成:步骤2.3.1:采用向量空间模型表示数据集D和P中的文本;步骤2.3.2:特征选择,设选定的特征选择函数为f(x);从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;若需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend,即Fend=F″D∪F″P;步骤2.3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend;若f∈di,特征f在文本di中的权重为若特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为若特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数;步骤3:对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得到若干微博话题;步骤4:对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降序排列得到热点话题;设话题集为Topic={TP1,TP2,...,TPN},话题TPj(1≤j≤N)对应的微博集为Dj={dj1,dj2,...,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数;微博集Dj中微博dji(1≤i≤M)的热度Hdji表示为:Hdji=log(lnji+1)+pnji3+cnji+fnji,]]>其中,lnji代表微博dji的用户粉丝数,pnji代表微博dji的点赞数,cnji代表微博dji的评论数,fnji代表微博dji的转发数;话题TPj的热度HTj可表示为:其中,tj为话题TPj的时间跨度,即微博集Dj中最早微博的发布时间与话题检测时的时间的差值。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘磊许志刚李静
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1