一种基于社交网络文档的热点信息挖掘方法技术

技术编号:14850774 阅读:124 留言:0更新日期:2017-03-18 13:21
本发明专利技术提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明专利技术能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,具体地说,本专利技术涉及一种基于社交网络文档的热点信息挖掘方法
技术介绍
随着Web2.0的到来,网民参与互联网的方式已经从之前的浏览信息、被动接收转变为制造信息、主动发送的方式,而这些使得网络环境和网络信息传播都发生了巨大的改变。微博、博客、微信等社交网络应用已经成为亿万网民生活的重要组成部分。目前很多重大新闻的发布和最新进展都源自社交网络,互联网因此成了很多社会热点事件的发生地和传播渠道,比如最近的热点事件“刘翔退役”,“王健林超李嘉诚成亚洲新首富”等等,这些都是由于网民较高的关注度而成为热点事件。同时,互联网也是政府部门了解民情的渠道,是新时代下政府部门重视的重要舆论阵地。比如网民通过互联网揭发一些腐败官员,网络反腐成为互联网时代的一种群众监督新形式。政府只有及时发现,及时跟进,及时处理,才能全面的把握舆论和民情,引导互联网的正面发展。不同于传统新闻媒体,互联网热点事件具有爆发迅速、数据海量、内容不规范等特性,因此如何尽可能快速地在海量不规则信息中捕获热点事件,并将其核心信息用易于理解的语言要素高效表达,是近年来学界的一个热门研究问题。当前的主流热点挖掘算法,主要依托于热点事件中的核心词汇(热词)集合及其规则来表示事件。其中,热点词汇挖掘是热点事件发现的重要的部分,它反映了在一定时间和空间内人们普遍关注的问题和事物。热点词汇挖掘的准确度对热点事件发现有着重要的影响。另一方面,由于词汇的表达能力有限,往往一个词汇只是事件抽象的一个方面,不能有效表达热词背后的热点事件的真正含义。比如“刘翔”、“王健林”很难让人准确获取其背后真正的事件。因此,为发现热点事件,有时还需要针对热词做词义扩展(或者称为语义扩展)。在词义扩展方面,一种现有的方案是通过提取前缀等词缀,然后根据语法规则来识别数字和专有名词,但这种方法局限性较大,其效果集中于识别比较明显的实体名词。另一种现有的方案是:构建一个三字词的构词模板,利用神经网络算法对筛选出的三字串进行训练,然后利用统计特征进行过滤来得到热词。这种方法识别速度快,但是只能针对特定规则的词。上述现有技术的方案虽然能一定程度上进行语义扩展,但并不完全适用于海量的社交网络数据分析,因为社交网络的数据主要有以下特点。1)语法不规范,垃圾噪音大;2)缺乏有效的编辑,没有事件中心概况。而传统词义扩展更多基于新闻语料,由于新闻语料“标题”本身有较强的表达能力,具有天然的优势,因此语料集的质量比较高。但是面对基于非新闻语料集、文本内容质量较差、没有有效的“中心事件标题”的社交网络语料,则前述方法的效果就会受到较大影响。
技术实现思路
因此,本专利技术的一个任务是提供一种能够更准确地挖掘社交网络文档的热点信息的解决方案。根据本专利技术的一个方面,提供了一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在总语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。其中,所述步骤1)中,所述词项在热度统计窗口内的权重是该词项在热度统计窗口内的TFIDF权值;所述词项在总语料库中的基准权重是该词项在总语料库中的TFIDF权值。其中,所述步骤1)中,各个词项的所述基准权重是按照一定的统计周期进行动态更新而获得的当前基准权重。其中,所述步骤1)中,对于任意词项k,其热度F(k)的计算方法如下:其中,N代表当前热度统计时间窗口内的文档数量,ck代表当前热度统计时间窗口内的包含词项k的文档个数,ftk代表词项k在文档t中的频率,D代表词项权重的更新周期,W代表词项热度统计的时间窗口长度,base(k)代表词项k的基准权重。其中,所述步骤1)中,所述当前基准权重根据动态更新的基准权重表获得,基准权重表中每个词项k的当前基准权重的计算方法如下:其中,D代表词项权重表统计的单位时间,W代表词汇热度统计的时间窗口长度,base代表基准词项值,下标d代表当前的词项权重表统计次数,Di代表第i次词项权重表统计与前一次词项权重表统计的时间间隔。其中,所述的基于社交网络文档的热点信息挖掘方法还包括步骤:3)对于当前热度统计窗口内的热点词项,进行同主题合并。其中,所述的基于社交网络文档的热点信息挖掘方法还包括步骤:4)将合并后的热点词项作为中心词进行语义扩展,获得能够表达更多内容的热点信息。其中,所述步骤3)中,进行同主题合并的方法是:基于词文档向量矩阵,根据词向量的余弦相似度对同主题词进行合并。其中,所述步骤4)中,词项的语义扩展方法如下:对词项的上下文进行语义标注,然后根据预设的语法模板提取上下文的关键词,并形成基于该词项的有效语义,统计语料集中基于该词项的各种有效语义的频度,根据该频度选择将该词项的哪一有效语义作为该词项的语义扩展。其中,所述预设的语法模板包括:“主系表”、“主谓宾”、“主主”和“主宾”模板。与现有技术相比,本专利技术具有下列技术效果:1、本专利技术能够提高社交网络中挖掘候选词的准确率。2、本专利技术能够获得更准确的表达社交网络热点事件的语义。3、本专利技术能够更好地发现社交网络中那些文档数目相对较少的热点事件。4、本专利技术能够更早更及时地发现社交网络中尚处于舆情爆发前期的热点事件。附图说明以下,结合附图来详细说明本专利技术的实施例,其中:图1示出了本专利技术一个实施例的热点信息挖掘方法的流程图。具体实施方式如前文所述,目前很多重大新闻的发布和最新进展都源自社交网络,互联网已经成了很多社会热点事件的发生地和传播渠道。本专利技术的目的之一,就是要通过对海量社交网络文档的数据挖掘,发现这些数据中所蕴含的热点信息(例如热点事件)。下面结合实施例对本专利技术做进一步地描述。根据本专利技术的一个实施例,提出一种自反馈词义扩展(Self-FeedbackSemanticExtension,以下简称SSE)的海量社交网络文档热点信息挖掘方法,图1示出了该热点信息挖掘方法的流程图,参考图1,该方法包括下列步骤:步骤1:对历史语料分词并建立词项权重表。本步骤中,对待分析的海量社交网络文档进行分词,得到各个词项及其对应的词项权重。该词项权重表示词在整个文档集中的权重。本实施例中,使用TFIDF值作为词项权重。TFIDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术,它能够评估词汇对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF值一方面能够在一定程度上的过滤噪音词,另一方面仅需要对语料集进行一次遍历即可得到,比较适合做大规模语料集的计算。在一个实施例中,将海量社交网络文档中的长文本的文档建立文档集,仅对文档集中的文档进行分词和建立词项权重表。该词项权重表记录了各个词项及其词项权重,即TFIDF值。步骤2:计算当前时间窗口内各个词项的热度,选出热度为前若干名的词项。如果词项的重要程度在当前语料集下有改变,那么就可以检测到词项对历史语料集中的波动程度,进而显示词项在语料集中的热度。词项TFIDF值的提升,既可能是词项的使用频率增高,本文档来自技高网
...
一种基于社交网络文档的热点信息挖掘方法

【技术保护点】
一种基于社交网络文档的热点信息挖掘方法,其特征在于,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。

【技术特征摘要】
1.一种基于社交网络文档的热点信息挖掘方法,其特征在于,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。2.根据权利要求1所述的基于社交网络文档的热点信息挖掘方法,其特征在于,所述步骤1)中,所述词项在热度统计窗口内的权重是该词项在热度统计窗口内的TFIDF权值;所述词项在总语料库中的基准权重是该词项在总语料库中的TFIDF权值。3.根据权利要求2所述的基于社交网络文档的热点信息挖掘方法,其特征在于,所述步骤1)中,各个词项的所述基准权重是按照一定的统计周期进行动态更新而获得的当前基准权重。4.根据权利要求3所述的基于社交网络文档的热点信息挖掘方法,其特征在于,所述步骤1)中,对于任意词项k,其热度F(k)的计算方法如下:F(k)=Σt=1N(ftk*logNck)*DW-base(k)]]>其中,N代表当前热度统计时间窗口内的文档数量,ck代表当前热度统计时间窗口内的包含词项k的文档个数,ftk代表词项k在文档t中的频率,D代表词项权重的更新周期,W代表词项热度统计的时间窗口长度,base(k)代表词项k的基准权重。5.根据权利要求4所述的基于社交网络文档的热点信息挖掘方法,其特征在于,所述步骤1)中,所述当前基准权重根据动态更新的基准权重表获得,基准权重表中每个词项k的当前基准权重的计算方法如下:based(k...

【专利技术属性】
技术研发人员:李静远郝晓波南军啸刘悦程学旗王凤
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1