一种挖掘热点词的方法与装置制造方法及图纸

技术编号:8593947 阅读:181 留言:0更新日期:2013-04-18 07:06
本发明专利技术公开了一种挖掘热点词的方法与装置。该方法包括:获取输入的文本流;对文本流进行分词,获取候选词集;统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率;根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。应用本发明专利技术,可以扩展热点词的挖掘范围、提高热点词挖掘效率。

【技术实现步骤摘要】

本专利技术涉及计算机通信技术,特别涉及一种挖掘热点词的方法与装置
技术介绍
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。例如,微博客(MicroBlog),即微博作为一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。由于网络内容的丰富,网络用户从中获取相关信息所花费的时间也越来越多,为了提高用户的网络体验,各运营商通过热点词挖掘的方法,自动获取最新的时讯,及时向网络用户进行推荐,例如,根据微博输入的文本流信息,自动识别其中包含的热点词,并向关注的用户推荐热点信息,这样,在提升网络服务的同时,也有效降低了用户获取热点信息所需的时间。图1为现有挖掘热点词的方法流程示意图。参见图1,该流程包括步骤101,获取输入的文本流;本步骤中,通过对网页、微博包含的内容进行处理,获取网页、微博内容对应的文本流,文本流可以按照预先设定的时间周期进行获取,也可以进行随机获取。步骤102,对文本流进行分词,获取候选词集;本步骤中,对文本流进行分词获取文本流中包含的词语,具体可参见相关技术文献。步骤103,将获取的候选词集与预先设置的热点词词表进行匹配,获取热点候选词集,并统计热点候选词的频率;本步骤中,可以以人工的方式预先整理、收集一批热点事件中可能包含的待关注词语,例如地震、火灾、演讲、事故、北京、旅游、购物等词语组成热点词词表。文本流输入之后,将经过分词处理获取的候选词集与热点词词表进行匹配,如果候选词集中的候选词包含在热点词词表中,则将候选词集中的该候选词作为热点候选词,放入热点候选词集中,并统计该热点候选词在候选词集中出现的次数或频率,即统计分词后出现在热点词词表中的词的频率。步骤104,选取频率最高的预定数目的热点候选词作为热点词输出。本步骤中,将频率最高的N个热点候选词作为热点词输出。由上述可见,现有的挖掘热点词的方法,需要人工整理热点词词表,工作量大;同时,大量新出现的人名、地名、机构名可能是未登录词,即未被整理至热点词词表中进行收录,但这些词又往往是一个热点事件或主题的主要部分,使得基于人工整理形成的热点词词表挖掘范围小,不能挖掘到此类热点事件或主题,使得热点词挖掘效率较低;进一步地,很多热点词,例如北京、电影、绯闻等往往是一些频率较高的词,由于多个事件会包含该词,尤其是在微博平台中,网友聊天对话中极有可能夹带北京、绯闻这些词语,使得这些词被提及或频繁出现,但频繁出现的该词并不能反映出一个热点事件或是话题,也就是说,仅仅依靠词语在一定时间内的出现频率不能够真正反映出这个词语的热度;而且,输出的热点词是单个的词语,在缺乏上下文的环境中,单个词语难以反映一个热点事件或是话题,例如,对于输出的热点词为科特迪瓦的情形,在缺乏相关知识背景下,用户难以了解这个词语代表了哪一个热点的事件或是话题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提出一种挖掘热点词的方法,能够扩展热点词的挖掘范围、提高热点词挖掘效率。本专利技术的另一目的在于提出一种挖掘热点词的装置,能够扩展热点词的挖掘范围、提闻热点词挖掘效率。为达到上述目的,本专利技术提供了一种挖掘热点词的方法,该方法包括获取输入的文本流,对文本流进行分词,获取候选词集;统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率;根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。 在获取候选词集后,进一步包括将预先设置的停用词表与获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行过滤。所述停用词表包括无意义词语、和/或,高文档率词语。所述获取各候选词在预先存储的历史数据中的各历史频率包括如果历史数据中存储有该候选词的各历史频率,读取该候选词的各历史频率;如果历史数据中未存储有该候选词的历史频率,计算历史数据中存储的所有候选词的各历史频率的平均值,作为该候选词的各历史频率。所述根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值包括根据候选词的各历史频率获取该候选词的历史频率的平均值;根据该候选词的各历史频率以及获取的该候选词的历史频率的平均值,计算该候选词的方差;获取该候选词的当前频率与历史频率的平均值的差的绝对值,计算该绝对值与所述方差的商,得到该候选词的频率异常性值。所述输出预定数目的频率异常的候选词为将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇进行输出。所述将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇包括基于预定数目的频率异常的候选词,统计每两个候选词组成的词组在同一文本流中出现的次数;统计该两个候选词在同一文本流中分别出现的次数,并获取该两个候选词在同一文本流中分别出现的次数的乘积;获取所述词组在同一文本流中出现的次数与所述乘积的商,作为所述两个候选词之间的点间互信息距离;如果获取的点间互信息距离值大于预先设置的点间互信息距离值阈值,则将该点间互信息距离值对应的两个候选词合成为一个词簇。进一步包括基于选择的预定数目的频率异常的候选词或者通过候选词聚合形成的词簇,触发从预先设置的外部数据源执行搜索,并将搜索结果与预定数目的频率异常的候选词或者词簇同时向用户展示。一种挖掘热点词的装置,该装置包括分词模块、历史数据存储模块以及频率异常性值处理模块,其中,分词模块,用于获取输入的文本流,对文本流进行分词,获取候选词集;历史数据存储模块,用于存储候选词的各历史频率;频率异常性值处理模块,用于统计候选词集中各候选词在文本流中出现的当前频率,根据候选词的当前频率以及历史数据存储模块存储的该候选词的各历史频率计算该候选词的频率异常性值,将计算得到的候选词的当前频率信息输出至历史数据存储模块,并输出预定数目的频率异常的候选词。进一步包括去噪模块,用于根据预先设置的停用词表,与分词模块获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行去噪处理。进一步包括候选词聚合模块,用于接收频率异常性值处理模块输出的预定数目的频率异常的候选词,将获取的候选词聚合成用以描述一个事件或主题的词簇。进一步包括搜索模块,用于以获取的词簇或候选词为搜索关键词,触发从预先设置的数据源执行搜索,向用户展示词簇以及搜索结果,或者,候选词以及搜索结果。所述频率异常性值处理模块包括当前频率统计单元、历史频率平均值计算单元、方差计算单元、异常性值计算单元以及候选词输出判断单元,其中,当前频率统计单元,用于统计候选词集中各候选词在输入文本流中出现的当前频率,将当前频率信息分别输出至历史数据存储模块以及异常性值计算单元;历史频率平均值计算单元,用于读取历史数据存储模块存储的各候选词的历史频率,计算各候选词的历史频率的平均值,输出至异常性值计算单元;方差计算单元,用于根据历史数据存储模块存储的各候选词的历史频率以及历史频率平均值计算单元计算得到的该候选词的历史频率的平均值,计算各候选词的方差,输出至异常性值计算单元本文档来自技高网
...

【技术保护点】
一种挖掘热点词的方法,其特征在于,该方法包括:获取输入的文本流,对文本流进行分词,获取候选词集;统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率;根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。

【技术特征摘要】
1.一种挖掘热点词的方法,其特征在于,该方法包括 获取输入的文本流,对文本流进行分词,获取候选词集; 统计候选词集中各候选词在文本流中出现的当前频率,获取各候选词在预先存储的历史数据中的各历史频率; 根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值,在历史数据中存储该候选词的当前频率信息并输出预定数目的频率异常的候选词。2.如权利要求1所述的方法,其特征在于,在获取候选词集后,进一步包括 将预先设置的停用词表与获取的候选词集进行匹配,将候选词集中与停用词表相匹配的词语进行过滤。3.如权利要求2所述的方法,其特征在于,所述停用词表包括无意义词语、和/或,高文档率词语。4.如权利要求1所述的方法,其特征在于,所述获取各候选词在预先存储的历史数据中的各历史频率包括 如果历史数据中存储有该候选词的各历史频率,读取该候选词的各历史频率; 如果历史数据中未存储有该候选词的历史频率,计算历史数据中存储的所有候选词的各历史频率的平均值,作为该候选词的各历史频率。5.如权利要求1所述的方法,其特征在于,所述根据候选词的当前频率以及各历史频率计算该候选词的频率异常性值包括 根据候选词的各历史频率获取该候选词的历史频率的平均值; 根据该候选词的各历史频率以及获取的该候选词的历史频率的平均值,计算该候选词的方差; 获取该候选词的当前频率与历史频率的平均值的差的绝对值,计算该绝对值与所述方差的商,得到该候选词的频率异常性值。6.如权利要求1至5任一项所述的方法,其特征在于,所述输出预定数目的频率异常的候选词为 将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇进行输出。7.如权利要求6所述的方法,其特征在于,所述将预定数目的频率异常的候选词聚合成用以描述一个事件或主题的词簇包括 基于预定数目的频率异常的候选词,统计每两个候选词组成的词组在同一文本流中出现的次数; 统计该两个候选词在同一文本流中分别出现的次数,并获取该两个候选词在同一文本流中分别出现的次数的乘积; 获取所述词组在同一文本流中出现的次数与所述乘积的商,作为所述两个候选词之间的点间互信息距离; 如果获取的点间互信息距离值大于预先设置的点间互信息距离值阈值,则将该点间互信息距离值对应的两个候选词合成为一个词簇。8.如权利要求1至5任一项所述的方法,其特征在于,进一步包括 基于选择的预定数目的频率异常的...

【专利技术属性】
技术研发人员:罗侃陈洪亮杨志峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1