当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于异质图随机游走的中文微博客观点探测方法技术

技术编号:10894552 阅读:195 留言:0更新日期:2015-01-09 17:29
本发明专利技术涉及一种基于异质图随机游走的中文微博客观点探测方法,包括:1、按话题采集微博,形成多个以话题为单位的微博集合;对微博进行预处理,去除噪声,形成词的集合的形式;2、从微博中识别出话题的关键词:计算每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;3、基于图模型探测微博中针对话题的主流观点:构建每条微博的特征向量,然后利用微博用户、微博和关键词之间的关系,以微博用户、微博、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博的排序列表。该方法探测速度快、准确度高,通用性强,适用范围广。

【技术实现步骤摘要】

本专利技术涉及观点挖掘
,更具体地,涉及一种基于异质图随机游走的中文 微博客观点探测方法,能应用于多话题主流观点的发现和排序,适用于中文微博客,包括新 浪微博、腾讯微博、网易微博等。
技术介绍
在现有技术中,有很多技术方法可用于网民群体观点探测。传统的观点挖掘方法 通过文本的倾向性分析进行观点挖掘,这些方法包括观点识别、观点检索、观点要素抽取、 垃圾评论识别等。对这些方法进一步分类,大致包括两个方面。一方面采用基于观点词表 的简单统计模型、基于机器学习的方法和基于自然语言处理的观点挖掘模型等方法来挖掘 网民观点,这些方法主要利用了观点词表、上下文信息、句子级信息、词位置邻近关系、词背 景知识等文本信息。另一方面借助当前信息检索和文本挖掘领域的最新模型提出了基于一 体化模型的观点检索算法检索网民对特定话题的观点看法,典型的有:基于词典的产生式 倾向性检索模型、基于观点词查询扩展的观点相关模型、基于主题-观点混合的主题模型、 基于外部数据集的产生式语言模型等。基于一体化模型的观点挖掘由于具有坚实的统计理 论基础、更容易解释,在观点挖掘相关研究工作中被广泛研究。 然而,这些方法主要从文本内容角度出发分析挖掘网民群体观点,缺乏考虑网 民的信誉度、影响力等用户关系对观点度量的影响。并且,社会媒介的数据蕴含非常丰富 可以利用的数据特征:网页之间的链接关系、用户之间的好友关系、网页内容的转载关系、 用户之间的隐性交互关系等。 在现有技术中,存在着一些基于图模型的方法被广泛应用于对社会媒介数据的挖 掘。它擅长针对对象之间的各种联系建立模型,并根据模型对社会媒介中的对象进行排序。 如何基于对象之间的相互关系构建适应各种任务需求的网络图是基于图模型方法的基础。 典型的方法有基于网页的出、入链构建网页链接图对网页进行排序;搜索引擎的PageRank 算法;HITS算法;LexRank算法;个性化PageRank算法;流形学习模型等。这些方法通过定 义网络图空间中对象之间的度数、距离长短等,采用随机游走算法或流形学习模型挖掘对 象的信誉度或影响力。 然而,这些基于图模型的方法并没有充分地被使用在观点探测中。 现有的观点探测方法没有充分考虑新型短文本媒体的社会化特征。随着近年来微 博客这类社交媒介消息的不断产生,产生了大量的富含网民观点的数据资源,并需要通过 数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对观点探测技术提出了一个 挑战:如何构建一个统一有效的观点探测系统来满足针对微博客进行观点挖掘的需要。因 此,迫切需要有一种高效准确的观点探测方法,该方法应能够在具有多个话题的微博数据 中发现话题关键词、构建出微博关系图,探测每个话题的主流观点,同时能够在不同的微博 类网站、不同领域方便地使用。
技术实现思路
本专利技术的目的在于提供,该 方法探测速度快、准确度高,通用性强,适用范围广。 为实现上述目的,本专利技术的技术方案是:一种基于异质图随机游走的中文微博客 观点探测方法,包括以下步骤: 步骤1 :按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的 微博帖子进行预处理,去除噪声,形成词的集合的形式; 步骤2 :从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然 后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键 词; 步骤3 :基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量, 然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点 构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的 微博帖子的排序列表。 进一步的,在步骤1中,所述去除噪声的规则为去除微博中的以下内容: a) 网页链接; b) 特殊字符; c) 广告相关的特殊字符; d) 表达情感的拟声词。 进一步的,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如 下:本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201410504376.html" title="一种基于异质图随机游走的中文微博客观点探测方法原文来自X技术">基于异质图随机游走的中文微博客观点探测方法</a>

【技术保护点】
一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步骤:步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。

【技术特征摘要】
1. 一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步 骤: 步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的 微博帖子进行预处理,去除噪声,形成词的集合的形式; 步骤2 :从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然 后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键 词; 步骤3 :基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量, 然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点 构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的 微博帖子的排序列表。2. 根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特 征在于,在步骤1中,所述去除噪声的规则为去除微博中的以下内容: a) 网页链接; b) 特殊字符; c) 广告相关的特殊字符; d) 表达情感的拟声词。3. 根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特 征在于,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:其中,(表示微博集合中按话题划分的子集,表示第i个词在第j个话题的微...

【专利技术属性】
技术研发人员:陈国龙廖祥文黄弈超
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1