面向话题的多微博时序文摘方法技术

技术编号：13284504 阅读：45 留言：0更新日期：2016-07-09 01:20

本发明专利技术公开一种面向话题的多微博时序文摘方法，包括如下步骤：1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴，进行面向话题的微博文本流热度信号建模；2)采用小波降噪对步骤1)的初始信号降噪，按一定时间粒度，选取其中的信号极大值点，依据对应更新速度进行排序，以检测重要时间点；3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST；4)采用最大边缘相关技术选择摘要句，建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点，并在此基础上，利用一类改进的基于图的随机游走算法对多微博进行摘要，输出结果准确度高。

全部详细技术资料下载

【技术实现步骤摘要】
面向话题的多微博时序文摘方法
本专利技术涉及网络微博中的数据挖掘
，特别是涉及一种面向话题的多微博时序文摘方法。
技术介绍
随着互联网技术的飞速发展，特别是微博的出现，人们获取信息的方式发生了一定的改变。然而，由于微博庞大的用户量和开放的信息发布方式，其上的信息存在着大量的冗余，为了帮助用户精准快速的从微博上获取自己所需的信息，对微博摘要算法的研究设计具有重要的现实意义。摘要是简明确切地记述文献重要内容的短文，其长度一般在原始文献长度的15％以下，通过这种方式来获取信息，可以在不曲解原始文献含义的前提下大大缩短获取信息所需要的时间和精力。面对互联网上海量的信息，人工完成摘要显然是不可能的，而自动摘要就显得格外重要。然而，互联网应用方式的变化对自动摘要的方法提出了新的要求，微博网站，如Twitter的出现使得互联网上内容的形式大大改变。微博是近年出现的一种互联网平台，它允许用户在其上发布和浏览信息，并具有一些很强的社交属性功能，如转发和回复功能。由于微博内容的简短性、高实时性、高社交性的特点，使得面向微博的自动摘要技术需要采用与传统自动摘要所不同的方法。
技术实现思路
为了解决上述技术问题，本专利技术提供一种面向话题的多微博时序文摘方法，该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点，并在此基础上，利用一类改进的基于图的随机游走算法对多微博进行摘要，输出结果准确度高。为此，本专利技术的技术方案如下：一种面向话题的多微博时序文摘方法，包括如下步骤：1)面向话题的微博文本流热度信号建模记某一时间点为ti，在ti时间点包含关键词K的微博的更新速度...

【技术保护点】
一种面向话题的多微博时序文摘方法，其特征在于包括如下步骤：1)面向话题的微博文本流热度信号建模记某一时间点为ti，在ti时间点包含关键词K的微博的更新速度为vti=MtiΔt*1Allti]]>其中，表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数，表示[ti,ti+Δt]中发布的所有微博条数；给定关键词K和时间段[tstart,tend]，以此为基础抽取出此时间段内包含K的微博实验数据集，选定单位时长Δt，沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号；2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪；按一定的时间粒度选取其中的信号极大值点，依据对应更新速度的大小进行排序，并依次以其对应的时间点为重要时间点，记为imp＝{imp1,imp2,…,impl}；3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST；T2ST模型将包含关键词K的每条微博作为图的节点，根据余弦相似度sim(di，dj)计算代表第i，j条微博的节点di和dj之间边的权值以及转移概率矩阵M，M中的每...

【技术特征摘要】
1.一种面向话题的多微博时序文摘方法，其特征在于包括如下步骤：1)面向话题的微博文本流热度信号建模记某一时间点为ti，在ti时间点包含关键词K的微博的更新速度为其中，表示时间段[ti，ti+Δt]中发布的包含关键词K的微博条数，表示[ti，ti+Δt]中发布的所有微博条数；给定关键词K和时间段[tstart，tend]，以此为基础抽取出此时间段内包含K的微博实验数据集，选定单位时长Δt，沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号；2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪；按一定的时间粒度选取其中的信号极大值点，依据对应更新速度的大小进行排序，并依次以其对应的时间点为重要时间点，记为imp＝{imp1，imp2，…，impl}；3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST；TS：采用传统随机游走图模型LexRank的微博文摘算法；TST：在TS基础上，融合微博流瞬时时序特性的微博文摘算法；TSS：在TS基础上，融合用户权威性信息的微博文摘算法；T2ST：在TS基础上，融合TST与TSS的微博文摘算法；T2ST模型将包含关键词K的每条微博作为图的节点，根据余弦相似度sim(di，dj)计算代表第i，j条微博的节点di和dj之间边的权值以及转移概率矩阵M，M中的每个元素mi，j表示为：其中，式中：j’表示所有和i邻接的节点；H(dj)为微博dj的热度，P(dj)为微博dj被发布的时间，p(dj)的时间粒度要小于步骤2)中的时间粒度；a(dj)为用户权威度；fol(dj)表示微博dj发布用户的粉丝数，fri(dj)表示微博dj发布用户的关注数；H(dj)和A(dj)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0，1]区间内；接着，采用图模型的迭代方式进行求解，进而得出每条微博的重要性；4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句，以D＝{d1，d2，…，dn}表示所有候选微博的集合，S＝{s1，s2，…，sn，，}表示最终得出微博摘要的集合；开始选择摘要句时S为空集，将步骤3)得到的重要性最高的微博dtop从D中选出，加入S，并从D中删除；然后重复从D中选出其中重要性最高的微博dtop，比对其与S中各微博的相似度，若都小于设定的阈值，则将dtop放入s中，否则从D中重新选择dtop，如此循环得到S。2.如权利要求1所述面向话题的多微博时序文摘方法，其特征在于：步骤3)中融合微博流瞬时时序特性建立的TST，其转移概率矩阵M中的每个元素mi，j表示为：H(dj)为微博dj的热度，其应用Logistic函数将热度信号值...

【专利技术属性】
技术研发人员：贺瑞芳，于广川，党建武，胡清华，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人