一种网络舆情事件多维信息提取的方法及装置制造方法及图纸

技术编号:9171040 阅读:151 留言:0更新日期:2013-09-19 19:38
本发明专利技术提供了一种网络舆情事件多维信息提取的方法及装置,其中,所述方法包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。本发明专利技术用以分析舆论事件,提高舆论事件分析的准确度。

【技术实现步骤摘要】
一种网络舆情事件多维信息提取的方法及装置
本专利技术涉及网络信息处理
,特别是涉及一种网络舆情事件多维信息提取的方法及装置。
技术介绍
随着互联网的不断普及,越来越多的人们通过互联网来表达自己的观点、发表和交流对热点事件的看法等,使得互联网日渐成为舆情产生和传播主要场所之一。由于网络舆情传播简单、身份隐藏,具有隐蔽性和突发性,并且社会影响力大,使得对网络舆情的研究逐步受到各国政府的高度关注。因此,本领域技术人员迫切需要解决的问题之一在于,提出一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。
技术实现思路
本专利技术所要解决的技术问题是提供一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。为了解决上述问题,本专利技术公开了一种网络舆情事件多维信息提取的方法,包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。优选地,所述采用种子网页构建网络舆情事件初始的主题的步骤包括:获取各种子网页的文本属性信息;分别针对各种子网页的文本属性信息进行分词及识别命名实体;采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。优选地,所述按照预设时间段分时获取特征网页的步骤包括:分别在预设时间段抓取指定网页;所述指定网页包括新闻、论坛和微博网页;计算各指定网页的内容向量和命名实体向量;依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。优选地,所述依据各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度的步骤包括:采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。优选地,所述方法还包括:在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤包括:依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。本专利技术实施例还公开了一种网络舆情事件多维信息提取的装置,包括:种子网页提取模块,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;特征网页获取模块,用于依据所述主题按照预设时间段分时获取特征网页;文本信息获取模块,用于获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;第一分析数据获取模块,用于依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;第二分析数据获取模块,用于依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;对比和趋势分析模块,用于分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。优选地,所述种子网页提取模块包括:文本信息获取子模块,用于获取各种子网页的文本属性信息;文本信息处理子模块,用于分别针对各种子网页的文本属性信息进行分词及识别命名实体;权重计算子模块,用于采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;特征词提取子模块,用于提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;主向量生成子模块,用于依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;主质心向量构建子模块,用于依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。优选地,所述特征网页获取模块包括:指定网页抓取子模块,用于分别在预设时间段抓取指定网页;质心向量计算子模块,用于计算各指定网页的内容向量和命名实体向量;相似度计算子模块,用于依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;特征网页获取子模块,用于若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。优选地,所述相似度计算子模块包括:内容向量距离计算单元,用于采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;命名实体向量距离计算单元,用于采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;第一权重值添加单元,用于分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;相似度计算单元,用于依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。优选地,所述装置还包括:主题更新模块,用于在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;所述主题信息更新模块包括:当前质心向量计算子模块,用于依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;第二权重值添加子模块,用于针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;当前主质心向量计算子模块,用于依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。与现有技术相比,本专利技术包括以下优点:本专利技术基于用户行为进行网络舆情初始网页采集、网络舆情初始网页分析与事件主题表示、面向网络舆情主题的网页增量聚类、网络舆情多维度分析和结果展示。通过本专利技术可以采集互联网上网络舆情事件传播和评论等相关信息,并从多个维度对信本文档来自技高网...
一种网络舆情事件多维信息提取的方法及装置

【技术保护点】
一种网络舆情事件多维信息提取的方法,其特征在于,包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。

【技术特征摘要】
1.一种网络舆情事件多维信息提取的方法,其特征在于,包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。2.根据权利要求1所述的方法,其特征在于,所述采用种子网页构建网络舆情事件初始的主题的步骤包括:获取各种子网页的文本属性信息;分别针对各种子网页的文本属性信息进行分词及识别命名实体;采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。3.根据权利要求1或2所述的方法,其特征在于,所述按照预设时间段分时获取特征网页的步骤包括:分别在预设时间段抓取指定网页;所述指定网页包括新闻、论坛和微博网页;计算各指定网页的内容向量和命名实体向量;依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间段的主内容向量和主命名实体向量计算相似度;若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。4.根据权利要求3所述的方法,其特征在于,所述依据各指定网页的内容向量和命名实体向量,以及,上一预设时间段的主内容向量和主命名实体向量计算相似度的步骤包括:采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。5.根据权利要求1或2所述的方法,其特征在于,还包括:在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤包括:依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。6.一种网络舆情事件多维信息提取的装置,其特征在于,包括:种子网页提取模块,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;特征...

【专利技术属性】
技术研发人员:肖赞罗峰黄苏支李娜
申请(专利权)人:亿赞普北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1