结合深度学习与语言逻辑推理的舆情分析方法技术

技术编号:37968918 阅读:8 留言:0更新日期:2023-06-30 09:44
本发明专利技术提出一种结合深度学习与语言逻辑推理的舆情分析方法,包括:获取话题数据并对其进行识别、格式转换后从中提取文本数据;对文本数据进行文本分类和词向量建模以提取出文本数据的第一相关信息;对第一相关信息进行结构分析,得到各主题词的第一关系数据;根据第一关系数据确定由多个第一关键词和各个第一关键词的第一属性数据组成的第一关键词集;对第一关键词集进行情感分类,获得第一情感分类数据并对其进行分析,得到第一舆情分析结果;对第一舆情分析结果进行有效性验证得到第一验证结果;根据第一验证结果对第一舆情分析结果进行修正。通过本发明专利技术的方案,利用深度学习技术和自然语言逻辑推理,可以准确地进行舆情分析。情分析。情分析。

【技术实现步骤摘要】
结合深度学习与语言逻辑推理的舆情分析方法


[0001]本专利技术涉及工业控制
,具体涉及一种结合深度学习与语言逻辑推理的舆情分析方法。

技术介绍

[0002]随着网络技术的快速发展,互联网已成为公众获取信息、表达观点的重要平台。网络舆情是公众对互联网上传播的热点问题所表现的具有一定影响力和倾向性的意见或言论的状态,它通过互联网对社会问题发表看法,或表达有较强影响力、倾向性的言论和观点。网络的舆情状况可以反映社会状态,有效的舆情监控与分析能够帮助锁定热点话题、快速通晓网民情绪发展、明确舆情现状,同时有助于引导舆情走向,避免舆情危机。针对舆情事件的描述,主要来自网络媒体上的新闻文本和类似新浪微博的社交平台,人们通过阅读、转发、评论等,直接告知他人或者从他人那里间接了解到舆情事件的相关信息。需要一种可针对这些事件信息从中提取特征并进一步准确地分析舆情当前的情况和传播趋势的舆情系统。

技术实现思路

[0003]本专利技术正是基于上述问题,提出了结合深度学习与语言逻辑推理的舆情分析方法,通过本专利技术的方案,利用深度学习技术和自然语言逻辑推理,可以准确地进行舆情分析。
[0004]有鉴于此,本专利技术的一方面提出了一种结合深度学习与语言逻辑推理的舆情分析方法,包括:
[0005]根据预设的触发规则,获取与特定话题相关的话题数据;
[0006]对所述话题数据进行识别、格式转换后从中提取文本数据;
[0007]利用预先训练好的第一神经网络对所述文本数据进行文本分类和词向量建模以提取出所述文本数据的第一相关信息;
[0008]利用预设的自然语言逻辑推理模型对所述第一相关信息进行结构分析,得到各主题词的第一关系数据;
[0009]利用预先训练好的关键词确定模型对所述第一关系数据进行处理,从而从所述各主题词中确定由多个第一关键词和所述多个第一关键词中各个第一关键词的第一属性数据组成的第一关键词集;
[0010]利用训练好的情感分析模型对所述第一关键词集进行情感分类,获得第一情感分类数据;
[0011]对所述第一情感分类数据进行分析,得到第一舆情分析结果;
[0012]利用聚类分析、统计学分析和精准度测试方法对所述第一舆情分析结果进行有效性验证,得到第一验证结果;
[0013]根据所述第一验证结果对所述第一舆情分析结果进行对应的修正。
[0014]可选地,所述预先训练好的第一神经网络是通过利用机器学习技术和深度神经网络,并结合语料库进行训练得到,以对所述文本数据进行文本分类,从而分析出与不同的舆情类别相关的第一相关信息。
[0015]可选地,所述利用预设的自然语言逻辑推理模型对所述第一相关信息进行结构分析,得到各主题词的第一关系数据的步骤,包括:
[0016]所述预设的自然语言逻辑推理模型利用自然语言处理技术,识别所述第一相关信息中的所述各主题词以对所述话题数据进行统计分析,从而获得准确的舆情分析结论。
[0017]可选地,所述根据预设的触发规则,获取与特定话题相关的话题数据的步骤,包括:
[0018]从所述预设的触发规则中提取所述特定话题的关联数据并从所述关联数据中提取关联词;
[0019]基于词向量技术进行语义相似度分析以获取与所述关联词的词向量相似的衍生关联词;
[0020]根据所述关联词和所述衍生关联词获取相关的文本、音频、图像和视频作为所述话题数据。
[0021]可选地,所述对所述话题数据进行识别、格式转换后从中提取文本数据的步骤,包括:
[0022]识别出所述音频中的第一语音数据和第一声调数据,并通过语音识别算法和语义识别算法得到音频描述文本数据;
[0023]识别出所述图像中的第一文字数据、第一人脸表情数据和第一表情符号数据,结合表情识别算法得到图像描述文本数据;
[0024]识别出所述视频中的第二语音数据、第二声调数据、第二文字数据、第二人脸表情数据和第二表情符号数据,结合语音识别算法、语义识别算法和表情识别算法得到视频描述文本数据;
[0025]将所述文本、所述音频描述文本数据、所述图像描述文本数据和所述视频描述文本数据转换为统一的标准化格式得到初始文本数据;
[0026]从所述初始文本数据中提取所述文本数据。
[0027]可选地,所述将所述文本、所述音频描述文本数据、所述图像描述文本数据和所述视频描述文本数据转换为统一的标准化格式得到初始文本数据的步骤,包括:
[0028]利用分词模型、表情符号识别模型和停用词识别模型对所述文本、所述音频描述文本数据、所述图像描述文本数据和所述视频描述文本数据进行分词、表情符号识别以及去除无意义符号、停用词的操作,得到待处理文本数据;
[0029]对所述待处理文本数据进行标准化处理得到所述初始文本数据。
[0030]可选地,所述根据预设的触发规则,获取与特定话题相关的话题数据的步骤之后,还包括:
[0031]获取所述话题数据对应的网络地址、用户账号和用户身份特征信息以生成所述话题数据对应的唯一的来源标识。
[0032]可选地,所述对所述待处理文本数据进行标准化处理得到所述初始文本数据的步骤包括:
[0033]根据所述来源标识对所述待处理文本数据进行分组,得到分组后的多个文本数据小组;
[0034]对所述多个文本数据小组按原始产生时间、语种、地域和来源人信息各个维度进行分类得到多个文本数据群组;
[0035]对所述多个文本数据群组进行标准化处理得到所述初始文本数据。
[0036]可选地,所述对所述待处理文本数据进行标准化处理得到所述初始文本数据的步骤包括:
[0037]对所述多个文本数据小组中的任意一个第一文本数据小组,将所述第一文本数据小组的分词后的第一个单独词作为基准词;
[0038]建立分词后每个单独词的描述结构,具体是:
[0039]创建描述结构文件;
[0040]获取所述每个单独词的起始字、中间字、结束字、与所述基准词的间隔距离以及出现次数,并将其记录至所述描述结构文件中;
[0041]重复上述步骤,直至迭代完所有的所述多个文本数据小组。
[0042]可选地,所述对所述待处理文本数据进行标准化处理得到所述初始文本数据的步骤包括:
[0043]对于每一个所述第一文本数据小组,根据所述出现次数和所述间隔距离对所有所述单独词进行统计分析,并以
“‘
单独词

、出现次数、间隔距离”构建出所述第一文本数据小组的特征结构数据。
[0044]采用本专利技术的技术方案,结合深度学习与语言逻辑推理的舆情分析方法包括:根据预设的触发规则,获取与特定话题相关的话题数据;对所述话题数据进行识别、格式转换后从中提取文本数据;利用预先训练好的第一神经网络对所述文本数据进行文本分类和词向量建模以提取出所述文本数据的第一相关信息;利用预设的自然语言逻辑推理模型对所述第一相关信息进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合深度学习与语言逻辑推理的舆情分析方法,其特征在于,包括:根据预设的触发规则,获取与特定话题相关的话题数据;对所述话题数据进行识别、格式转换后从中提取文本数据;利用预先训练好的第一神经网络对所述文本数据进行文本分类和词向量建模以提取出所述文本数据的第一相关信息;利用预设的自然语言逻辑推理模型对所述第一相关信息进行结构分析,得到各主题词的第一关系数据;利用预先训练好的关键词确定模型对所述第一关系数据进行处理,从而从所述各主题词中确定由多个第一关键词和所述多个第一关键词中各个第一关键词的第一属性数据组成的第一关键词集;利用训练好的情感分析模型对所述第一关键词集进行情感分类,获得第一情感分类数据;对所述第一情感分类数据进行分析,得到第一舆情分析结果;利用聚类分析、统计学分析和精准度测试方法对所述第一舆情分析结果进行有效性验证,得到第一验证结果;根据所述第一验证结果对所述第一舆情分析结果进行对应的修正。2.根据权利要求1所述的舆情分析方法,其特征在于,所述预先训练好的第一神经网络是通过利用机器学习技术和深度神经网络,并结合语料库进行训练得到,以对所述文本数据进行文本分类,从而分析出与不同的舆情类别相关的第一相关信息。3.根据权利要求2所述的舆情分析方法,其特征在于,所述利用预设的自然语言逻辑推理模型对所述第一相关信息进行结构分析,得到各主题词的第一关系数据的步骤,包括:所述预设的自然语言逻辑推理模型利用自然语言处理技术,识别所述第一相关信息中的所述各主题词以对所述话题数据进行统计分析,从而获得准确的舆情分析结论。4.根据权利要求3所述的舆情分析方法,其特征在于,所述根据预设的触发规则,获取与特定话题相关的话题数据的步骤,包括:从所述预设的触发规则中提取所述特定话题的关联数据并从所述关联数据中提取关联词;基于词向量技术进行语义相似度分析以获取与所述关联词的词向量相似的衍生关联词;根据所述关联词和所述衍生关联词获取相关的文本、音频、图像和视频作为所述话题数据。5.根据权利要求4所述的舆情分析方法,其特征在于,所述对所述话题数据进行识别、格式转换后从中提取文本数据的步骤,包括:识别出所述音频中的第一语音数据和第一声调数据,并通过语音识别算法和语义识别算法得到音频描述文本数据;识别出所述图像中的第一文字数据、第一人脸表情数据和第一表情符号数据,结合表情识别算法得到图像描述文本数据;识别出所述视频中的第二语音数据、第二声调数据、第二文字数据、第二人脸表情数据和第二表情...

【专利技术属性】
技术研发人员:肖林黄国柱杨洲杰
申请(专利权)人:深圳市深弈科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1