一种基于语义扩充的微博话题检测和热度评估方法技术

技术编号：11870652 阅读：109 留言：0更新日期：2015-08-12 20:59

一种基于语义扩充的微博话题检测和热度评估方法，属于文本信息处理领域，具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。本发明专利技术首先给出了微博噪声数据过滤方法，用于低信息量微博的过滤，然后将微博评论中有效语义信息补充进微博语义，改善了微博话题检测的效果，最后进行了微博话题热度评估，进而获取热点话题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本信息处理领域，具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。
技术介绍
微博是以用户关系为基础的信息分享载体，用户可以通过WEB和各种APP，以140 字以内的文字更新分享信息。用户之间通过"关注一被关注"的方式实现信息的传递，微博平台的转发功能促进和实现了微博在用户间的快速传播。在微博快速发展的同时获得了广泛的应用，已成为一种具有强大影响力的新型媒体。微博具备4A特性（任何时间、任何地点、任何方式、任何人），随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研宄微博及中文微博信息处理技术具有重要的理论和应用价值。微博因为文本长度短，信息含量较少，会产生严重的数据稀疏问题，导致微博话题检测等微博文本信息处理的效果都不太理想。研宄者们对解决微博数据稀疏问题和改善话题检测效果进行了一些尝试，但是此类问题还没得到彻底解决。本专利技术先对微博噪声数据进行了过滤，然后将微博评论中有效语义信息补充进微博语义，改善了微博话题检测的效果，最后进行了微博话题热度评估，进而获取热点话题。
技术实现思路
本专利技术的目的在于通过扩充微博语义改善微博话题检测的效果并获取热点话题。本专利技术综合考虑了微博噪声数据过滤、微博语义扩充和话题热度评估三个方面，提出了一种基于语义扩充的微博话题检测和热度评估方法。 -种基于语义扩充的微博话题检测和热度评估方法，其特征在于包括如下步骤：步骤1 :通过以下微博噪声数据过滤方法，过滤掉低信息量微博。步骤I. 1 :对微博...
一种基于语义扩充的微博话题检测和热度评估方法

【技术保护点】
一种基于语义扩充的微博话题检测和热度评估方法，其特征在于：该方法包括如下步骤，步骤1：通过以下微博噪声数据过滤方法，过滤掉低信息量微博；步骤1.1：对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理；步骤1.2：计算信息量指数A：(1)获取核心词：计算微博集中的每个词的文档频率，设置频率阈值η，过滤掉文档频率小于阈值η的词，得到核心词集合；(2)计算当前微博的核心词的权重和，作为此微博的信息量指数A；(3)过滤掉信息量指数A低于信息量指数阈值χ的微博；计算重要性指数B：(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)；(2)设置相似度阈值θ，将大于等于阈值θ的相似度置为1，小于阈值θ的相似度置为0；(3)计算当前微博与其他所有微博的相似度之和，作为此微博的重要性指数B；(4)过滤掉重要性指数B低于重要性指数阈值σ的微博；步骤2：微博语义扩充；步骤2.1：对步骤1过滤后的微博文本，通过将微博文本中的最后一个转发标签“//@”前的内容当做“//@”后内容的转发评论的方式，获取每一条原创微博的评论集合；步骤2.2：通过微博评论选择方法对微博评论进行筛选；一条原创...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘磊，许志刚，李静，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人