【技术实现步骤摘要】
一种主体话题态度指数的计算方法
本专利技术属于网络信息挖掘
,具体涉及一种主体话题态度指数计算方法。
技术介绍
随着信息技术不断发展,新闻客户端和各类社交媒体成为公众特别是年轻人的第一信息源,但由于信息量庞大繁杂,通过文章分析总结提炼有用的信息成为一种常用的手段。目前分析主要是对单个文章的情感分析,这种分析方法存在如下弊端:1、单文章分析缺少话题识别,很难有针对性分析;2、单文章分析比较片面,缺少主体的整体分析及主体的层次分析。
技术实现思路
针对目前主体话题分析方法存在缺少识别度、分析较为片面无法整体分析的缺陷和问题,本专利技术提供一种主体话题态度指数计算方法。本专利技术解决其技术问题所采用的方案是:一种主体话题态度指数的计算方法,包括以下步骤,步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;步骤二、数据预处理:包括以下步骤:(1)收集时间段内全球范围针对某一话题的文章信息 ...
【技术保护点】
1.一种主体话题态度指数的计算方法,其特征在于:包括以下步骤,/n步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;/n步骤二、数据预处理:包括以下步骤:/n(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;/n(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;/n(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;/n(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取 ...
【技术特征摘要】
1.一种主体话题态度指数的计算方法,其特征在于:包括以下步骤,
步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;
步骤二、数据预处理:包括以下步骤:
(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;
(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;
(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;
(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;
(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;
步骤三、对文章信息数据进行情感分析,包括以下步骤:
(1)对信息数据的情感分类进行设计,分为正面、中立和负面;
(2)根据情感分类的每一类情感构建英文话题情感词典;
(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;
(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;
步骤四、计算话题态度指数,包括以下步骤:
(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;
单篇文章态度得分score=∑(k-score*k-num/num)
式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:StronglyPositive(1)、WeaklyPositive(0.7)、Neutral(0)、StronglyNegative(-1)、WeaklyNegative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例;
文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100
Sigmoid:
文章权重:对应每...
【专利技术属性】
技术研发人员:陈中正,王元卓,程伯群,赵俊霞,胡玉龙,刘玉茹,程松庆,王红强,雍胜凯,
申请(专利权)人:中科院计算技术研究所大数据研究院,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。