当前位置: 首页 > 专利查询>天津大学专利>正文

面向话题的多微博时序文摘方法技术

技术编号:13284504 阅读:45 留言:0更新日期:2016-07-09 01:20
本发明专利技术公开一种面向话题的多微博时序文摘方法,包括如下步骤:1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴,进行面向话题的微博文本流热度信号建模;2)采用小波降噪对步骤1)的初始信号降噪,按一定时间粒度,选取其中的信号极大值点,依据对应更新速度进行排序,以检测重要时间点;3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;4)采用最大边缘相关技术选择摘要句,建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。

【技术实现步骤摘要】
面向话题的多微博时序文摘方法
本专利技术涉及网络微博中的数据挖掘
,特别是涉及一种面向话题的多微博时序文摘方法。
技术介绍
随着互联网技术的飞速发展,特别是微博的出现,人们获取信息的方式发生了一定的改变。然而,由于微博庞大的用户量和开放的信息发布方式,其上的信息存在着大量的冗余,为了帮助用户精准快速的从微博上获取自己所需的信息,对微博摘要算法的研究设计具有重要的现实意义。摘要是简明确切地记述文献重要内容的短文,其长度一般在原始文献长度的15%以下,通过这种方式来获取信息,可以在不曲解原始文献含义的前提下大大缩短获取信息所需要的时间和精力。面对互联网上海量的信息,人工完成摘要显然是不可能的,而自动摘要就显得格外重要。然而,互联网应用方式的变化对自动摘要的方法提出了新的要求,微博网站,如Twitter的出现使得互联网上内容的形式大大改变。微博是近年出现的一种互联网平台,它允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。由于微博内容的简短性、高实时性、高社交性的特点,使得面向微博的自动摘要技术需要采用与传统自动摘要所不同的方法。
技术实现思路
为了解决上述技术问题,本专利技术提供一种面向话题的多微博时序文摘方法,该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。为此,本专利技术的技术方案如下:一种面向话题的多微博时序文摘方法,包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为其中,表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,表示[ti,ti+Δt]中发布的所有微博条数;给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,优选此处观察粒度以天为单位,依据对应更新速度的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl};3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;该方法阐述如何在时序-社交上下文情景下建立随机游走图模型,将包含关键词K的每条微博作为图的节点,根据余弦相似度sim(di,dj)计算节点di和dj之间边的权值以及转移概率矩阵M,M中的每个元素mi,j表示为:其中,式中,节点di和dj分别表示第i,j条微博,j’表示所有和i邻接的节点;H(dj)为微博dj的热度,p(dj)为微博dj被发布的时间,p(dj)的时间粒度要小于步骤2)中的时间粒度,即小于确定重要时间点时的时间粒度,此处,不同的粒度意味着不同的观察窗口;重要时间点检测以天为观察单位,最终选出的是某一天;这里,微博流瞬时时序特性以小时为观察单位,从更具体的微观趋势上挖掘有用的信息;a(dj)为用户权威度;fol(dj)表示微博dj发布用户的粉丝数,fri(dj)表示微博dj发布用户的关注数;H(dj)和A(dj)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内;接着,采用图模型的迭代方式进行求解,进而得出每条微博的重要性;4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句,以D={d1,d2,...,dn}表示所有候选微博的集合,S={s1,s2,…,sn}表示最终得出微博摘要的集合;开始选择摘要句时s为空集,将步骤3)得到的重要性最高的微博dtop从D中选出,加入S,并从D中删除;然后重复从D中选出其中重要性最高的微博dtop,比对其与S中各微博的相似度,若都小于设定的阈值,则将dtop放入S中,否则从D中重新选择dtop,如此循环得到S。其中,步骤2)采用小波分析和小波降噪的原理去除噪声的方法为:使用HeurSure阈值的方法进行去噪,HeurSure阈值方法结合了通用阈值方法和Stein无偏风险阈值,如果用σ表示噪声信号的标准差,用N表示原始信号的长度,则用阈值计算公式可以写成:而Stein无偏风险阈值,又称SureShrink,是一种基于对均方差进行Stein无偏似然估计的阈值选择方法;其将某一分辨率下的小波系数的平方值按非递减的顺序进行排列,得到X=[x1,x2,…,xn],再计算其对应的风险向量R=[r1,r2,…,rn],找出其中最小的风险元素rb和其对应的xb,则SureShrink的计算公式表示为:由于在原始信号的信噪比较小时,使用Stein无偏风险阈值方法无法有效去除噪声,在这种情况下通用阈值会有较好的效果。而在信噪比较大时,通过选择ξv和ξs中较小的值作为阈值,可以取得最好的去噪效果。综合以上情况:其中,s为某一分辨率下小波系数的平方和,即在选定了阈值之后,选用软阈值的方法,令原始信号在某一分辨率下的小波系数为ω,利用门限阈值处理后的小波为Γ(k),选定的阈值为ξ,软阈值函数为:针对一维小波,小波基选取db3小波进行去噪过程。其中,步骤3)中融合微博流瞬时时序特性建立的随机步图模型为TST,其转移概率矩阵M中的每个元素mi,j表示为:H(dj)为微博dj的热度,其应用Logistic函数将热度信号值映射到[0,1]区间内,得到归一化的瞬时时序特性值;融合社会网络用户社交权威性建立的随机步图模型为TSS,其转移概率矩阵M中的每个元素mi,j表示为:A(dj)是将用户权威度a(dj))应用Logistic函数映射到[0,1]区间内,得到归一化的用户权威度。设计的基础微博文摘算法TS求解过程采用文本排序图模型LexRank中的迭代方式进行。如上多微博文摘算法T2ST、TST以及TSS在建立新情景下的随机步图模型转移概率矩阵后,均采用与TS相同的求解方式,进而得到新的微博排序模型。①与经典的PageRank算法思想相似,LexRank算法是基于图的排序算法在自动摘要领域的应用,特别是在微博摘要方面展现出了良好的性能。我们将每一条微博看作一个文档,并将其转换为图中的节点。基于LexRank设计的基础微博文摘算法TS步骤描述如下:根据空间向量模型和TF-IDF方法,计算出每条微博d的特征向量d={w1,w2,...,wn}。②计算出每两条微博i,j之间的相似度sim(di,dj)。③将每条微博作为图的节点,根据相似度计算边的权值和转移概率矩阵M,M中每个元素mi,j表示为:这里,j′表示所有和i邻接的节点。④将基于图的排序算法的计算公式应用在基于微博构造的图上:其中,djump为跳转因子参数。⑤初始化每个节点的显著度值(置为1),迭代使用以上公式计算每个节点的重要度si,直到两次迭代之间重要度的变化小于设定的阈值为止。本专利技术提供的方法主要针对诸如Twitter的社交媒体微博文本信息,对以人物、产品或公司等为线索的的多微博文本实现时序摘要,又称多微博时间轴摘要。重点以关键时间点的选择和时间点上的多微博摘要为研究对象,设计出了针对社交媒体微博文本本文档来自技高网...

【技术保护点】
一种面向话题的多微博时序文摘方法,其特征在于包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为vti=MtiΔt*1Allti]]>其中,表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,表示[ti,ti+Δt]中发布的所有微博条数;给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,依据对应更新速度的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl};3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;T2ST模型将包含关键词K的每条微博作为图的节点,根据余弦相似度sim(di,dj)计算代表第i,j条微博的节点di和dj之间边的权值以及转移概率矩阵M,M中的每个元素mi,j表示为:mi,j=sim(di,dj)*A(dj)*H(dj)Σj,sim(di,dj′)*A(dj′)*H(dj′),Σj′sim(di,dj′)*A(dj′)*H(dj′)≠00,otherwise]]>其中,H(dj)=11+e-v(p(dj));A(dj)=11+e-a(dj);a(dj)=fol(dj)fri(dj);]]>式中:j’表示所有和i邻接的节点;H(dj)为微博dj的热度,p(dj)为微博dj被发布的时间,p(dj)的时间粒度要小于步骤2)中的时间粒度;a(dj)为用户权威度;fol(dj)表示微博dj发布用户的粉丝数,fri(dj)表示微博dj发布用户的关注数;H(dj)和A(dj)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内;接着,采用图模型的迭代方式进行求解,进而得出每条微博的重要性;4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句,以D={d1,d2,...,dn}表示所有候选微博的集合,S={s1,s2,…,sn}表示最终得出微博摘要的集合;开始选择摘要句时S为空集,将步骤3)得到的重要性最高的微博dtop从D中选出,加入S,并从D中删除;然后重复从D中选出其中重要性最高的微博dtop,比对其与S中各微博的相似度,若都小于设定的阈值,则将dtop放入S中,否则从D中重新选择dtop,如此循环得到S。...

【技术特征摘要】
1.一种面向话题的多微博时序文摘方法,其特征在于包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为其中,表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,表示[ti,ti+Δt]中发布的所有微博条数;给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,依据对应更新速度的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl};3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;TS:采用传统随机游走图模型LexRank的微博文摘算法;TST:在TS基础上,融合微博流瞬时时序特性的微博文摘算法;TSS:在TS基础上,融合用户权威性信息的微博文摘算法;T2ST:在TS基础上,融合TST与TSS的微博文摘算法;T2ST模型将包含关键词K的每条微博作为图的节点,根据余弦相似度sim(di,dj)计算代表第i,j条微博的节点di和dj之间边的权值以及转移概率矩阵M,M中的每个元素mi,j表示为:其中,式中:j’表示所有和i邻接的节点;H(dj)为微博dj的热度,P(dj)为微博dj被发布的时间,p(dj)的时间粒度要小于步骤2)中的时间粒度;a(dj)为用户权威度;fol(dj)表示微博dj发布用户的粉丝数,fri(dj)表示微博dj发布用户的关注数;H(dj)和A(dj)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内;接着,采用图模型的迭代方式进行求解,进而得出每条微博的重要性;4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句,以D={d1,d2,…,dn}表示所有候选微博的集合,S={s1,s2,…,sn,,}表示最终得出微博摘要的集合;开始选择摘要句时S为空集,将步骤3)得到的重要性最高的微博dtop从D中选出,加入S,并从D中删除;然后重复从D中选出其中重要性最高的微博dtop,比对其与S中各微博的相似度,若都小于设定的阈值,则将dtop放入s中,否则从D中重新选择dtop,如此循环得到S。2.如权利要求1所述面向话题的多微博时序文摘方法,其特征在于:步骤3)中融合微博流瞬时时序特性建立的TST,其转移概率矩阵M中的每个元素mi,j表示为:H(dj)为微博dj的热度,其应用Logistic函数将热度信号值...

【专利技术属性】
技术研发人员:贺瑞芳于广川党建武胡清华
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1