一种舆情事件中提取重要观点的方法技术

技术编号:37639360 阅读:12 留言:0更新日期:2023-05-25 10:06
本发明专利技术涉及一种舆情事件中提取重要观点的方法。本发明专利技术利用了机器学习和算法模型,基于互信息和左右交叉熵从海量文本中抽取出行业内特定短语和专有名词,基于glove模型利用行业内语料训练词向量模型,利用词向量召回与“说”和“表示”的近义词,抽取出来的专有名词词典,并依据专家规则把属于言论观点的句子进行召回,利用NER模型判断观点中表述者字段是否包含业务指定的实体类型,对观点进行筛选利用句法依存树分析表述者字段的词汇依赖关系,从中表述者实体关系,作为重要观点依据。本技术可扩展至多个行业多种类型事件,不局限于单一数据类型,支持多种数据类型,对大数据量下的多种观点进行了聚类,便于查看理解。便于查看理解。便于查看理解。

【技术实现步骤摘要】
一种舆情事件中提取重要观点的方法


[0001]本专利技术涉及网络信息处理
,具体为一种舆情事件中提取重要观点的方法。

技术介绍

[0002]目前主要的几种观点提取及识别的技术主要是通过词向量,情感分析,关键词聚类等技术手段,这些技术主要是针对网络论坛数据或用户评论数据进行观点提取,或特定场景下的观点提取方法,如电商等等场景。
[0003]现有技术的识别手段,局限于文本数据的观点提取,随着新型媒体的发展,网民表达诉求不再局限于论坛,微博等以文本为主要表达诉求的平台,更集中在视频,语音,图片等领域。另一方面缺少对于观点的分级与重要性高低进行划分,有一些观点可能无足轻重,反而作为主要的观点提取。进行海量数据处理后,所抽取的观点数据繁多,缺少一种手段对提取的观点进行有效分类和识别。
[0004]专利CN108363725A公开了一种用户评论观点提取和观点标签生成的方法,该方法首先基于用户评论构建初始的观点词性规则库,然后通过不断迭代的方法自动发现新的用户观点词性规则,通过词性规则匹配的方法得到用户评论观点。这种方法更多的关注评论数据,并没有结合其他各类数据类型,也没有给出方法如何对观点进行分类,有其局限性。
[0005]专利CN201210038746一种中文的观点、评价信息的属性

观点对抽取方法,公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性

观点对抽取方法。该方法主要是针对元数据本身进行观点抽取,同时未考虑在不同事件中,观点区分逻辑,很可能在某一事件中是观点,而在另一事件中不是观点,观点未能与事件本身相结合。
[0006]专利CN101408883B公开了一种网络舆情观点收集方法,通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,得到某一热点事件的多个观点主题句集。这种方法只针对了互联网上的论坛数据进行了分析,不够全面。目前新型媒体的发展已经取代了网络论坛地位,基于网络论坛进行观点提取,已不再适用现在互联网的发展,同时也未给出方法如何区分观点重要程度。
[0007]如何解决在如今互联网形式下从舆情事件中的分析出于事件本身相关的观点,且进行有效分类,并能结合不同事件的情况分析出该事件中观点重要性高低和影响力大的代表性观点成为了主要需要解决的问题。

技术实现思路

[0008]鉴于现有技术中所存在的问题,本专利技术公开了一种舆情事件中提取重要观点的方法,包括步骤如下:步骤一、聚合舆情事件数据:将网络舆情事件以实体、发生地、事件三方面来描述
事件主题并据此提炼出主关键词,通过主关键词对已提炼出的关键词进行与或非的组合,通过这些关键词从舆情数据库中进行检索,可以得到与该事件的相关的数据集;步骤二、利用互信息与左右交叉熵算法抽取频次最高的短语、词句:从海量数据中基于互信息与左右交叉熵算法模型,抽取在事件数据集中出现次数不低于两次的短语、词句,作为代表相应事件的专有名词,通过互信息与左右交叉熵算法计算已抽取的专有名词的向量值;步骤三、基于glove模型与抽取的短语专有名词组成词典集:根据得到的相应事件专有名词的向量值,通过结合glove模型结合专有词汇和行业特定短语库,构建共现矩阵,矩阵中每个元素以X
ij
代表单词i和上下文单词j在特定大小的上下文中共同出现的次数;一般而言,这个次数的最小单位是1,但是基于glove模型,根据两个关键词在上下文中距离d,通过衰减函数decay=1/d用于计算权重,其中公式如下:基于此公式构建其损失函数:经过机器学习的模型训练后,即获得了与事件相匹配的或相近视的词典集,选取得分较高的前30个;步骤四、专家规则过滤非言论观点:通过专家人工筛选出不符合主观言论表达的观点的表述的词,从词典中剔除;步骤五、基于词典抽取候选观点上下文:基于已筛选的词典,通过分词器进行分词后,从事件数据集中抽取与观点相关的上下文句子,并认为这些数据为候选观点;步骤六、基于NER模型和句法依存树抽取实体:NER系统就是从非结构化的输入文本中抽取出实体,并且按照业务需求识别出更多类别的实体。通常在业务场景表述观点,是由表述者与表述内容组成。表述者除具体的人物,还会包括其组织,头衔,职位。通过NER和句法依存树对表述内容进行实体抽取,根据表述者实体所在组织,头衔,职位进行分类。分类规则采用预先已经整理的码表库,通过与码表库的比对明确其实体重要性。如权威观点、官方观点、大V观点。
[0009]作为本专利技术的一种优选方案,步骤二中所述互信息公式为:交叉熵损失函数公式为:
[0010]作为本专利技术的一种优选方案,步骤六中所述NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛;实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、组织机构名、专有名词等。
[0011]本专利技术的有益效果:本专利技术利用了机器学习和算法模型,基于互信息和左右交叉熵从海量文本中抽取出行业内特定短语和专有名词,基于glove模型利用行业内语料训练词向量模型,利用词向量召回与“说”和“表示”的近义词,抽取出来的专有名词词典,并依据
专家规则把属于言论观点的句子进行召回,利用NER模型判断观点中表述者字段是否包含业务指定的实体类型,对观点进行筛选利用句法依存树分析表述者字段的词汇依赖关系,从中表述者实体关系,作为重要观点依据。关键点在于结合了机器学习算法模型,训练了一批各行业及事件相关的专有名词及短语模型,表述者实体模型等。通过这些模型与实际舆情事件的向量关系有效抽取重要观点及影响力大的观点。本技术可扩展至多个行业多种类型事件,不局限于单一数据类型,支持多种数据类型,对大数据量下的多种观点进行了聚类,便于查看理解,基于影响力判别观点重要程度,为决策提供依据,与客观事实进行区分,准确提取主观观点,消除杂音。
附图说明
[0012]图1为专利技术的步骤框图;
[0013]图2为专利技术的方法流程框图;
具体实施方式
[0014]实施例1
[0015]本专利技术公开了一种舆情事件中提取重要观点的方法,包括步骤如下:步骤一、聚合舆情事件数据:将网络舆情事件以实体、发生地、事件三方面来描述事件主题并据此提炼出主关键词,通过主关键词对已提炼出的关键词进行与或非的组合,通过这些关键词从舆情数据库中进行检索,可以得到与该事件的相关的数据集;比如:李某某XX服舆情事件,其中李某某作为实体关键词,XX作为事件关键词,新品发布会作为发生地关键词。通过李某某+新品发布会+XX的关键词组合关联,即可从舆情库中检索到了该事件相关的所有数据结果,即完成第一步的事件聚集。理论上只要有相关关键词可以代表该事件,那么就应该将其纳入关键词组合范围,最大化聚集事件数据;
[0016]步骤二、利用互信息与左右交叉熵算法抽取频次最高的短语、词句:从海量数据中基于互信息与左右交叉熵算法模型,抽取在事件数据集中出现次数不低于两次本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种舆情事件中提取重要观点的方法,其特征在于,包括步骤如下:步骤一、聚合舆情事件数据:将网络舆情事件以实体、发生地、事件三方面来描述事件主题并据此提炼出主关键词,通过主关键词对已提炼出的关键词进行与或非的组合,通过这些关键词从舆情数据库中进行检索,可以得到与该事件的相关的数据集;步骤二、利用互信息与左右交叉熵算法抽取频次最高的短语、词句:从海量数据中基于互信息与左右交叉熵算法模型,抽取在事件数据集中出现次数不低于两次的短语、词句,作为代表相应事件的专有名词,通过互信息与左右交叉熵算法计算已抽取的专有名词的向量值;步骤三、基于glove模型与抽取的短语专有名词组成词典集:根据得到的相应事件专有名词的向量值,通过结合glove模型结合专有词汇和行业特定短语库,构建共现矩阵,矩阵中每个元素以X
ij
代表单词i和上下文单词j在特定大小的上下文中共同出现的次数;一般而言,这个次数的最小单位是1,但是基于glove模型,根据两个关键词在上下文中距离d,通...

【专利技术属性】
技术研发人员:陈学言田平王垒
申请(专利权)人:广东数源智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1