一种主体话题态度指数的计算方法技术

技术编号:27975680 阅读:58 留言:0更新日期:2021-04-06 14:09
本发明专利技术属于网络信息挖掘技术领域,具体涉及一种主体话题态度指数计算方法。该方法通过采集相关主体的传统媒体、社交数据,然后对数据进行预处理,通过情感分析建模、话题态度指数建模,建立话题态度分析模型,进而分析话题态度指数。通过多层次、多角度的分析目标主体的话题态度指数,能够宏观的反映了国家、地区、主体的话题态度,客户可方便的进行宏观把控,逐级深入。

【技术实现步骤摘要】
一种主体话题态度指数的计算方法
本专利技术属于网络信息挖掘
,具体涉及一种主体话题态度指数计算方法。
技术介绍
随着信息技术不断发展,新闻客户端和各类社交媒体成为公众特别是年轻人的第一信息源,但由于信息量庞大繁杂,通过文章分析总结提炼有用的信息成为一种常用的手段。目前分析主要是对单个文章的情感分析,这种分析方法存在如下弊端:1、单文章分析缺少话题识别,很难有针对性分析;2、单文章分析比较片面,缺少主体的整体分析及主体的层次分析。
技术实现思路
针对目前主体话题分析方法存在缺少识别度、分析较为片面无法整体分析的缺陷和问题,本专利技术提供一种主体话题态度指数计算方法。本专利技术解决其技术问题所采用的方案是:一种主体话题态度指数的计算方法,包括以下步骤,步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;步骤二、数据预处理:包括以下步骤:(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;步骤三、对文章信息数据进行情感分析,包括以下步骤:(1)对信息数据的情感分类进行设计,分为正面、中立和负面;(2)根据情感分类的每一类情感构建英文话题情感词典;(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;步骤四、计算话题态度指数,包括以下步骤:(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;单篇文章态度得分score=∑(k-score*k-num/num)式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:StronglyPositive(1)、WeaklyPositive(0.7)、Neutral(0)、StronglyNegative(-1)、WeaklyNegative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例。文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100文章权重:对应每篇文章的权重;根据文章的来源、人工权重进行设计,取值:0——+∞,默认为5。(2)根据时间段内每个主体发表的文章的情感得分,和不同主体的计算系数,计算得到各个主体的话题态度指数,所述主体传统媒体和社交媒体;主体话题态度得分=Sigmoid(∑(文章话题态度得分*文章主体指数)/文章数量)*100∑主体时间段内全部文章态度得分*文章主体指数之和。(3)计算时间段内各个国家/地区不同主体的话题态度,进行国家/地区范围文章整体态度计算,得到各个国家/地区的话题态度指数;(4)根据时间段内全球范围的文章态度整体得分计算得到全球范围的主体话题态度指数即为主体话题指数。上述的主体话题态度指数的计算方法,步骤一中,针对传统媒体数据通过通用新闻采集器,配置媒体网站地址进行自动化采集抽取,然后对采集结果进行抽样检查,对采集结果较差的数据可配置特定规则进行干预;针对社交媒体通过定制的采集器,利用人工维护的账号池进行自动化采集。上述的主体话题态度指数的计算方法,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类,步骤为:(1)读入一条新文本,文本转化向量;(2)判断向量与已存在簇的相似度;关于相似度的计算,若文本较长可直接使用tfidf进行判别;或者使用文本向量的cos值判别,或者直接使用jaccad相似度判别;如果大于阈值,则加入簇执行完毕;如小于阈值,则判断簇数量是否超过设置簇值(控制簇数量,避免簇数过多),未超过簇值时,直接创建簇;否则删除已存在簇中最无用的(通过时间及簇大小决定),之后再新建簇。上述的主体话题态度指数的计算方法,传统媒体的文章主体指数是以媒体的权威度和文章本身的阅读量、转发量经归一化处理后的传统媒体计算系数;社交媒体的文章主体指数是以社交媒体的影响力、社交媒体账号的权威度、文章本身的点赞数、评论数、转发数经归一化处理后形成的社交媒体计算系数。本专利技术的有益效果:本专利技术的方法使用的各项指数为业务提供了更丰富的分析模式,可通过对主体的话题态度指数走势分析关键节点;可支持中、英两类话题分类模型,可根据业务方特定业务需求进行话题分类模型优化;能够统计话题态度指数消极排行情况,突出重点态度;可分析一个地区的话题态度(积极、消极)排行,为业务员锁定目标;能够宏观的反映了国家、地区、主体的话题态度,客户可方便的进行宏观把控,逐级深入。附图说明图1为本专利技术整体流程图。具体实施方式下面结合附图和实施例对本专利技术进一步说明。实施例1:本实施例提供一种主体话题态度指数分析方法,该方法针对目标主体进行话题态度指数分析,首先要采集相关主体的媒体、社交数据,然后对数据进行预处理,通过情感分析建模、话题态度指数建模,进而分析话题态度指数。其中目标主体包括世界各个国家或地区表明态度的相关机构和个人,机构分为官方机构和媒体;个人包括政要和网民。话题态度指数,分别以日、周、月为时间周期计算主体的话题态度指数。如图1所示,该方法具体包括以下步骤。步骤一、数据采集采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;基本思想为:按一定顺序依次读取文章数据,每次读取的新数据都和已经读取并聚类的数据进行比较,若按照一定规则找到相应的近似组别,则将这个新数据归入这个类中;如果没有,则将这个新数据视为一个新类;反复执行,直到所有的数据都读完。算法流程为:(1)读入一条新文本,文本转化向量;(2)判断向量与已存在簇的相似度;关于相似度的计算,若文本较长可直接使用tfidf进行判别;或者使用文本向量的cos值判别,或者直接使用jaccad相似度判别;如果大于阈值,则加入簇执行完毕;如小于阈值,则判断簇数量是否超过设置簇值(控制簇数量,避免簇数过多),未超过簇值时,直接创建簇;否则删除已存在簇中最无用的(通过时间及簇大小决定),之后再新建簇。步骤二、数据预处理:(1)收集时间段内本文档来自技高网...

【技术保护点】
1.一种主体话题态度指数的计算方法,其特征在于:包括以下步骤,/n步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;/n步骤二、数据预处理:包括以下步骤:/n(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;/n(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;/n(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;/n(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;/n(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;/n步骤三、对文章信息数据进行情感分析,包括以下步骤:/n(1)对信息数据的情感分类进行设计,分为正面、中立和负面;/n(2)根据情感分类的每一类情感构建英文话题情感词典;/n(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;/n(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;/n步骤四、计算话题态度指数,包括以下步骤:/n(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;/n单篇文章态度得分score=∑(k-score*k-num/num)/n式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例;/n文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100/nSigmoid:...

【技术特征摘要】
1.一种主体话题态度指数的计算方法,其特征在于:包括以下步骤,
步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;
步骤二、数据预处理:包括以下步骤:
(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;
(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;
(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;
(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;
(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;
步骤三、对文章信息数据进行情感分析,包括以下步骤:
(1)对信息数据的情感分类进行设计,分为正面、中立和负面;
(2)根据情感分类的每一类情感构建英文话题情感词典;
(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;
(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;
步骤四、计算话题态度指数,包括以下步骤:
(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;
单篇文章态度得分score=∑(k-score*k-num/num)
式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:StronglyPositive(1)、WeaklyPositive(0.7)、Neutral(0)、StronglyNegative(-1)、WeaklyNegative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例;
文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100
Sigmoid:
文章权重:对应每...

【专利技术属性】
技术研发人员:陈中正王元卓程伯群赵俊霞胡玉龙刘玉茹程松庆王红强雍胜凯
申请(专利权)人:中科院计算技术研究所大数据研究院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1