本发明专利技术公开了一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘系统,意见领袖挖掘系统包括计算中心和数据库服务器,数据库服务器与计算中心通信,该方法的具体步骤为:利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;提取网页信息,利用中文分词系统进行分词,并利用谱聚类方法对垃圾评论进行过滤;利用情感语料库进行文本倾向性分析;设定意见领袖的选取标准值,确定意见领袖:将结果可视化。本发明专利技术的方法能准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供了技术支持。
【技术实现步骤摘要】
本专利技术涉及互联网信息管理领域,特别是。
技术介绍
随着网络技术的迅猛发展和网民规模的快速增长,越来越多的公众通过网络参与社会讨论和表达社会意见。由于互联网具有交流平等、参与广泛的特点,许多国内外热点事件能够迅速形成巨大的网络舆论压力,网络已成为反映社会舆情的主要载体之一。在网络舆情的形成过程中,意见领袖的助推作用显著。能提出指导性见解、具有广泛社会影响的人叫意见领袖,又称舆论领袖。意见领袖在网络论坛中积累了较高的声望,在舆情事件酝酿和发酵过程中,舆情主体更容易受到意见领袖的影响,意见领袖的言论和意见往往会影响和改变其他人的意见,引导和推动事态进一步发展,他们在网络舆情的发生、发展和消亡过程中的作用可能是积极的,也可能是消极的,因而对意见领袖的挖掘工作具有重要的现实意义。然而在互联网数据爆炸式增长的今天,传统的依靠人工统计数据发现意见领袖的方法显得力不从心。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供,准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供技术支持。为解决上述技术问题,本专利技术所采用的技术方案是,包括意见领袖挖掘系统,意见领袖挖掘系统包括计算中心和数据库服务器,数据库服务器与计算中心通信,该方法的具体步骤为 .1)利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;.2)提取网页信息,利用中文分词系统进行分词,并利用谱聚类方法对垃圾评论进行过滤; . 3)利用情感语料库进行文本倾向性分析; .4)设定意见领袖的选取标准值,利用下列公式确定意见领袖PR(A) = (l-d)+d*(PR(Tl) * L (A, Tl) + …+PR(Tn) *L(A,Tn)), 其中PR(A)表示给定页面A的得分,d为阻尼因子,PR(Tn)表示一个指向A页的网站其本身的得分,L(A,Tn)表示网页A和网页Tn的链接相关度,L(A,Tn) = (Ua H Un) / (Ua U Un),Ua代表网页A的链出、链入和自身的URL的集合;Un代表网页Tn的链出、链入和自身的URL的集合; 当PR(A)大于设定的选取标准值时,即确定为意见领袖; .5)将4)中的结果可视化。作为优选方案,步骤1)中,利用开源爬虫Netcrawler实现网络论坛数据的采集;所述消息中间件为ActiveMQ。作为优选方案,步骤2)中,利用正则表达式提取网页信息;所述中文分词系统为基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS。步骤2)中,利用谱聚类方法对垃圾评论进行过滤的步骤为 1)采集文本情报语料,对文本进行预处理,得到评论集; 2)针对得到的评论集,将每条评论利用向量空间模型来进行特征表示,每条评论表示成空间的一个向量; 3)生成相似矩阵G; 4)构造非正则拉普拉斯矩阵作为样本矩阵利用相似度矩阵^得出邻接矩阵r,然后把邻接矩阵的每一列元素加起来得到#个数,把它们放在对角线上,其他地方都是零,组成一个的矩阵,记为D,令Z =D -r, Z即为样本矩阵; 5)构建特征向量空间求出Z的前々个特征值以及对应的特征向量,将这々个特征向量组成一个的矩阵,即为特征向量空间,其中前A个特征值按照特征值的大小从小到大排列; 6)把这A个特征列向量排列在一起组成一个的矩阵,将其中每一行看作A维空间中的一个向量,并使用谱聚类算法进行聚类; 7)采用欧氏距离方法,在谱聚类基础上计算每个点到对应类中心距离; 8)计算对象的离群度将上述距离的平均值万0^和方差ΑΟ -ΑΟ )尸的比值作为离群度的基础数据,然后根据离群度公式Out (V =E(Xi)/E(Xi-E(Xi))2计算离群度; 9)利用离群度检测垃圾评论把垃圾评论作为离群点,然后进行离群点探测,只需对离群度进行Τορ-η排序,离群度最高的对象就是离群点,也就是检测出的垃圾评论; 10)将检测出的垃圾评论从数据库中删除。作为优选方案,步骤3)中,采用的情感语料库为HowNet201104中的情感分析用词集。作为优选方案,步骤4)中,选取的标准值为O. 001 ;阻尼因子d设为O. 8。作为优选方案,步骤5)中,利用Vizster实现可视化。本专利技术面向国际互联网论坛中的海量评论,设计并实现了网络论坛意见领袖自动挖掘系统,能准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供了技术支持。附图说明图I为本专利技术一实施例意见领袖自动挖掘系统硬件平台结构示意 图2为本专利技术一实施例爬虫配置界面 图3为本专利技术一实施例利用谱聚类方法对垃圾评论进行过滤的步骤流程 图4为正则表达式的基本元字符; 图5为HowNet的情感分析词语集。具体实施例方式如图I所示,本专利技术一实施例意见领袖自动挖掘系统主要由数据中心和计算中心组成,数据中心是一台数据库服务器存储了从互联网论坛爬取的数据,并为计算中心提供数据服务,计算中心则通过一系列算法对数据中心提供的数据进行处理从而挖掘出意见领袖。本专利技术一实施例意见领袖自动挖掘方法步骤如下 I、采集论坛数据 (I)利用开源爬虫抓取论坛数据 网络论坛数据采集是意见领袖挖掘的数据基础,本专利技术利用开源爬虫Netcrawler实现网络论坛数据的采集,这是一个Web爬行的前端系统,能够沿着链接漫游Web文档集合,其基本工作原理与基于种子URL进行·广度优先搜索的爬虫相同通过给定的种子URL,利用HTTP等标准协议读取相应文档,然后以文档中所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。Netcrawler的主要功能是下载一个域中的所有网页,然后分析和处理所有相关元素,包括图片、文字、音频、视频等,可以在http://freecode. com/projects/netcrawler下载最新的Netcrawler版本。通过给定论坛主页网址或论坛某一频道的网址作为种子URL,获取该论坛频道中包括主题和回帖页面的网页源码,具体回帖元数据解析工作在网页预处理中进行。本专利技术保留了系统内核,对论坛采集的要素(包括标题、正文、发帖人、发帖时间、ip地址、点击数、回复数等)进行了配置,并改变系统界面使之操作更加友好。根据用户提供的网络论坛种子URL抓取网页及相关帖子并存储到本地,为系统追加和更新数据提供原始数据。爬虫配置界面如图2,设置了种子URL、线程数、保存位置、抓取深度、抓取类型和关键词表达式。(2)利用消息中间件提高数据处理的实时性 消息中间件(MOM,Message-Oriented Middleware)是一种特定的中间件。它利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统集成。消息中间件最重要的功能就是及时提供可靠的消息通信手段。为了能够完成消息的可靠传输,一般使用队列的方式进行消息管理,也就是说,通常在进行数据传输时,将数据按照用户定义的大小,拆分成若干消息单元放入消息队列,中间件可以按照同步或异步的通信方式发送或者接收消息。在实际的操作过程中,为了保障消息可靠传输,经常使用消息优先级、断点续传、可靠消息队列、内存队列等技术,有些还加入了流量控制、预建连接等功能。消息中间本文档来自技高网...
【技术保护点】
一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘系统,意见领袖挖掘系统包括计算中心和数据库服务器,数据库服务器与计算中心通信,其特征在于,该方法的具体步骤为:1)利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;2)提取网页信息,利用中文分词系统进行分词,并利用谱聚类方法对垃圾评论进行过滤;3)利用情感语料库进行文本倾向性分析;4)设定意见领袖的选取标准值,利用下列公式确定意见领袖:PR(A)=(1?d)+d*(PR(T1)?*?L(A,T1)+…+PR(Tn)?*L(A,Tn)),其中:PR(A)表示给定页面A的得分,d为阻尼因子,PR(Tn)表示一个指向A页的网站其本身的得分,L(A,Tn)表示网页A和网页Tn的链接相关度,L(A,Tn)=(Ua∩Un)/(?Ua∪Un),Ua代表网页A的链出、链入和自身的URL?的集合;Un代表网页Tn的链出、链入和自身的URL?的集合;当PR(A)大于设定的选取标准值时,即确定为意见领袖;5)将4)中的结果可视化。
【技术特征摘要】
【专利技术属性】
技术研发人员:葛斌,李芳芳,汤大权,蒋林承,唐九阳,王桢文,胡升泽,戴长华,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。