【技术实现步骤摘要】
本专利技术涉及观点挖掘
,更具体地,涉及一种基于异质图随机游走的中文 微博客观点探测方法,能应用于多话题主流观点的发现和排序,适用于中文微博客,包括新 浪微博、腾讯微博、网易微博等。
技术介绍
在现有技术中,有很多技术方法可用于网民群体观点探测。传统的观点挖掘方法 通过文本的倾向性分析进行观点挖掘,这些方法包括观点识别、观点检索、观点要素抽取、 垃圾评论识别等。对这些方法进一步分类,大致包括两个方面。一方面采用基于观点词表 的简单统计模型、基于机器学习的方法和基于自然语言处理的观点挖掘模型等方法来挖掘 网民观点,这些方法主要利用了观点词表、上下文信息、句子级信息、词位置邻近关系、词背 景知识等文本信息。另一方面借助当前信息检索和文本挖掘领域的最新模型提出了基于一 体化模型的观点检索算法检索网民对特定话题的观点看法,典型的有:基于词典的产生式 倾向性检索模型、基于观点词查询扩展的观点相关模型、基于主题-观点混合的主题模型、 基于外部数据集的产生式语言模型等。基于一体化模型的观点挖掘由于具有坚实的统计理 论基础、更容易解释,在观点挖掘相关研究工作中被广泛研究。 然而,这些方法主要从文本内容角度出发分析挖掘网民群体观点,缺乏考虑网 民的信誉度、影响力等用户关系对观点度量的影响。并且,社会媒介的数据蕴含非常丰富 可以利用的数据特征:网页之间的链接关系、用户之间的好友关系、网页内容的转载关系、 用户之间的隐性交互关系等。 在现有技术中,存在着一些基于图模型的方法被广泛应用于对社会媒介数据的挖 掘。它擅长针对对象之间的各 ...
【技术保护点】
一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步骤:步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
【技术特征摘要】
1. 一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步 骤: 步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的 微博帖子进行预处理,去除噪声,形成词的集合的形式; 步骤2 :从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然 后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键 词; 步骤3 :基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量, 然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点 构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的 微博帖子的排序列表。2. 根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特 征在于,在步骤1中,所述去除噪声的规则为去除微博中的以下内容: a) 网页链接; b) 特殊字符; c) 广告相关的特殊字符; d) 表达情感的拟声词。3. 根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特 征在于,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:其中,(表示微博集合中按话题划分的子集,表示第i个词在第j个话题的微...
【专利技术属性】
技术研发人员:陈国龙,廖祥文,黄弈超,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。