一种舆情事件中提取重要观点的方法技术

技术编号：37639360 阅读：12 留言：0更新日期：2023-05-25 10:06

本发明专利技术涉及一种舆情事件中提取重要观点的方法。本发明专利技术利用了机器学习和算法模型，基于互信息和左右交叉熵从海量文本中抽取出行业内特定短语和专有名词，基于glove模型利用行业内语料训练词向量模型，利用词向量召回与“说”和“表示”的近义词，抽取出来的专有名词词典，并依据专家规则把属于言论观点的句子进行召回，利用NER模型判断观点中表述者字段是否包含业务指定的实体类型，对观点进行筛选利用句法依存树分析表述者字段的词汇依赖关系，从中表述者实体关系，作为重要观点依据。本技术可扩展至多个行业多种类型事件，不局限于单一数据类型，支持多种数据类型，对大数据量下的多种观点进行了聚类，便于查看理解。便于查看理解。便于查看理解。

全部详细技术资料下载

【技术实现步骤摘要】
一种舆情事件中提取重要观点的方法

[0001]本专利技术涉及网络信息处理
，具体为一种舆情事件中提取重要观点的方法。

技术介绍

[0002]目前主要的几种观点提取及识别的技术主要是通过词向量，情感分析，关键词聚类等技术手段，这些技术主要是针对网络论坛数据或用户评论数据进行观点提取，或特定场景下的观点提取方法，如电商等等场景。
[0003]现有技术的识别手段，局限于文本数据的观点提取，随着新型媒体的发展，网民表达诉求不再局限于论坛，微博等以文本为主要表达诉求的平台，更集中在视频，语音，图片等领域。另一方面缺少对于观点的分级与重要性高低进行划分，有一些观点可能无足轻重，反而作为主要的观点提取。进行海量数据处理后，所抽取的观点数据繁多，缺少一种手段对提取的观点进行有效分类和识别。
[0004]专利CN108363725A公开了一种用户评论观点提取和观点标签生成的方法，该方法首先基于用户评论构建初始的观点词性规则库，然后通过不断迭代的方法自动发现新的用户观点词性规则，通过词性规则匹配的方法得到用户评论观点。这种方法更多的关注评论数据，并没有结合其他各类数据类型，也没有给出方法如何对观点进行分类，有其局限性。
[0005]专利CN201210038746一种中文的观点、评价信息的属性
‑
观点对抽取方法，公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性
‑
观点对抽取方法。该方法主要是针对元数据本身进行观点抽取，同时未考虑在不...

【技术保护点】

【技术特征摘要】
1.一种舆情事件中提取重要观点的方法，其特征在于，包括步骤如下：步骤一、聚合舆情事件数据：将网络舆情事件以实体、发生地、事件三方面来描述事件主题并据此提炼出主关键词，通过主关键词对已提炼出的关键词进行与或非的组合，通过这些关键词从舆情数据库中进行检索，可以得到与该事件的相关的数据集；步骤二、利用互信息与左右交叉熵算法抽取频次最高的短语、词句：从海量数据中基于互信息与左右交叉熵算法模型，抽取在事件数据集中出现次数不低于两次的短语、词句，作为代表相应事件的专有名词，通过互信息与左右交叉熵算法计算已抽取的专有名词的向量值；步骤三、基于glove模型与抽取的短语专有名词组成词典集：根据得到的相应事件专有名词的向量值，通过结合glove模型结合专有词汇和行业特定短语库，构建共现矩阵，矩阵中每个元素以X
ij
代表单词i和上下文单词j在特定大小的上下文中共同出现的次数；一般而言，这个次数的最小单位是1，但是基于glove模型，根据两个关键词在上下文中距离d，通...

【专利技术属性】
技术研发人员：陈学言，田平，王垒，
申请(专利权)人：广东数源智汇科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人