基于知识图谱的银行舆情分析方法和系统技术方案

技术编号:26222815 阅读:15 留言:0更新日期:2020-11-04 10:53
本发明专利技术公开了一种基于知识图谱的银行舆情分析方法和系统,涉及信息安全技术领域。该方法包括:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析。本发明专利技术提供的银行舆情分析方法是基于知识图谱的,一方面基于知识图谱将银行的相关舆情进行可视化,另一方面基于图谱利用一些算法挖掘其中的重要知识,可以快速的获取相关信息并作出相关决策。

【技术实现步骤摘要】
基于知识图谱的银行舆情分析方法和系统
本专利技术涉及信息安全
,具体涉及一种基于知识图谱的银行舆情分析方法和系统。
技术介绍
当下银行所服务的客户群体庞大、覆盖范围又广,所以银行舆情突发率极高,并且银行舆情事件发生后往往都能引发舆论热议。所以,在银行舆情事件突发后,若不能及时加以处理,化解银行舆情风险,其给银行机构造成的损失是极大的。同时由于银行服务网点多,客户群体庞大,所以其舆情监测量大,仅依靠人工在网络上通过搜索关键词进行监测,舆情发现及处置较为滞后,不具备即时性。
技术实现思路
为了解决以上问题,也为了做到舆情早发现,本专利技术提出了基于知识图谱的银行舆情分析方法和系统,从而提供一种高效的、直观的银行舆情分析的方法。本专利技术提供的银行舆情分析方法是基于知识图谱的,一方面基于知识图谱将银行的相关舆情进行可视化,另一方面基于图谱利用一些算法挖掘其中的重要知识,可以快速的获取相关信息并作出相关决策。根据本专利技术的第一方面,提供一种基于知识图谱的银行舆情分析方法,所述方法包括:舆情数据获取采集步骤:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;舆情知识图谱构建步骤:根据数据库中的舆情数据构建第一知识图谱、第二知识图谱和第三知识图谱;舆情分析步骤:根据所建立的第一知识图谱、第二知识图谱和第三知识图谱进行舆情分析。进一步的,所述原始数据包括但不限于:新闻标题、新闻正文、新闻摘要、新闻发布日期、新闻来源数据。进一步的,所述对原始数据进行预处理包括但不限于:对原始数据进行清洗、删除重复数据和无关内容、数据标准化、实体消歧操作、命名实体识别、实体关系抽取以及确定三元组结构。进一步的,所述第一知识图谱为热词知识图谱。进一步的,所述热词知识图谱的构建包括以下步骤:步骤1:根据数据库中的舆情数据,针对待分析主体创建待分析主体信息表,并根据热词情感表选取待分析主体再所选时间范围内排名前十的一级热词及其对应的二级热词;步骤2:生成待分析主体与一级热词的关系表,以及一级热词与二级热词的关系表;步骤3:根据步骤1的结果,创建待分析主体节点、一级热词节点以及二级热词节点;步骤4:根据步骤2的结果,创建待分析主体与一级热词的关系、一级热词与二级热词的关系;步骤5:完成构建热词知识图谱。进一步的,所述第二知识图谱为舆情来源知识图谱。进一步的,所述舆情来源知识图谱的构建包括以下步骤:步骤1:根据数据库中的舆情数据,创建待分析主体信息表、正负面信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;步骤2:生成待分析主体与正负面的关系表、正负面与舆情新闻来源分类的关系表、舆情新闻来源分类和舆情新闻来源的关系表、舆情新闻来源与对应的新闻事件类型的关系表;步骤3:根据步骤1的结果,创建待分析主体节点、正负面节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;步骤4:根据步骤2的结果,创建待分析主体与正负面的关系、正负面与舆情新闻来源分类的关系、舆情新闻来源分类和舆情新闻来源的关系、舆情新闻来源与对应的新闻事件类型的关系;步骤5:完成构建舆情来源知识图谱。进一步的,所述第三知识图谱为负面舆情知识图谱。进一步的,所述负面舆情知识图谱的构建包括:步骤1:根据数据库中的舆情数据,创建负面新闻信息表、负面新闻所涉及时间信息表、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;步骤2:生成负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源、新闻事件类型的关系表,舆情新闻来源和舆情新闻来源分类的关系表,以及负面新闻与负面新闻的关系表;步骤3:根据步骤1的结果,创建负面新闻节点、负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;步骤4:根据步骤2的结果,创建负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型的关系,舆情新闻来源和舆情新闻来源分类的关系,以及负面新闻与负面新闻的关系;步骤5:完成构建负面舆情知识图谱。进一步的,根据所建立的负面舆情知识图谱进行舆情分析具体包括:采用基于语义的重叠性算法进行了负面新闻的相似度分析,根据相似度对负面新闻进行分类,并依据每一类别所包含负面新闻数量进行排序,确定热点新闻并关注;确定负面新闻所涉及时间节点、负面新闻所涉及待分析主体子主体节点或者事件类型节点连接边最多的爆炸性节点,然后该爆炸性节点进行针对性的监控与核查;对新加入负面新闻进行实体链接(包括实体指称识别、候选实体生成和候选实体消歧),将新加入负面新闻中的实体和负面舆情知识图谱中对应的实体建立链接,将负面新闻所涉及时间、负面新闻所涉及待分析主体子主体、舆情新闻来源、新闻事件类型与负面舆情知识图谱中对应的实体均相同的新加入负面新闻作为重复新闻并删除;通过查询多度关系,确定任一负面新闻的传播路径。进一步的,根据相似度对负面新闻进行分类时,以相似度大于90%的负面新闻分为同一类。进一步的,所述对新加入负面新闻进行实体链接包括:实体指称识别、候选实体生成和候选实体消歧。进一步的,所述实体指称识别的实现方式包括但不限于:通用命名实体识别技术、词典匹配技术等方式。进一步的,所述候选实体生成的实现方式包括但不限于:表层名字扩展、基于搜索引擎的方法、构建查询实体引用表等方式。进一步的,所述候选实体消歧的实现方式包括但不限于:基于图方法、基于概率生成模型、基于主题模型、基于深度学习等方式。根据本专利技术的第二方面,提供一种基于知识图谱的银行舆情分析系统,所述系统包括:舆情数据获取采集模块,通过舆情数据获取采集模块从各种搜索引擎中抓取原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;舆情知识图谱构建模块,通过舆情知识图谱构建模块根据数据库中的舆情数据构建第一知识图谱、第二知识图谱和第三知识图谱;舆情分析模块,通过舆情分析模块,根据所建立的第一知识图谱、第二知识图谱和第三知识图谱进行舆情分析。根据本专利技术的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据以上任一方面所述方法的步骤。根据本专利技术的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据任一方面所述方法的步骤。本专利技术的有益效果:本专利技术提供了基于知识图谱的银行舆情分析。在本专利技术的基于知识图谱的银行舆情的分析中,在接受用户输入特定银行以及特定时间段后,可以将该银本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的舆情分析方法,其特征在于,所述方法包括:/n舆情数据获取采集步骤:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;/n舆情知识图谱构建步骤:根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;/n舆情分析步骤:根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析。/n

【技术特征摘要】
1.一种基于知识图谱的舆情分析方法,其特征在于,所述方法包括:
舆情数据获取采集步骤:从各种搜索引擎中抓取针对待分析主体的原始数据,对原始数据进行预处理,得到舆情数据并存放在数据库中,并生成热词情感表;
舆情知识图谱构建步骤:根据数据库中的舆情数据并结合热词情感表构建热词知识图谱、舆情来源知识图谱和负面舆情知识图谱;
舆情分析步骤:根据所建立的热词知识图谱、舆情来源知识图谱和负面舆情知识图谱进行舆情分析。


2.根据权利要求1所述的舆情分析方法,其特征在于,所述热词知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,针对待分析主体创建待分析主体信息表,并根据热词情感表选取待分析主体再所选时间范围内排名前十的一级热词及其对应的二级热词;
步骤2:生成待分析主体与一级热词的关系表,以及一级热词与二级热词的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、一级热词节点以及二级热词节点;
步骤4:根据步骤2的结果,创建待分析主体与一级热词的关系、一级热词与二级热词的关系;
步骤5:完成构建热词知识图谱。


3.根据权利要求1所述的舆情分析方法,其特征在于,所述舆情来源知识图谱的构建包括以下步骤:
步骤1:根据数据库中的舆情数据,创建待分析主体信息表、正负面信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成待分析主体与正负面的关系表、正负面与舆情新闻来源分类的关系表、舆情新闻来源分类和舆情新闻来源的关系表、舆情新闻来源与对应的新闻事件类型的关系表;
步骤3:根据步骤1的结果,创建待分析主体节点、正负面节点、舆情新闻来源节点、舆情新闻来源分类节点和新闻事件类型节点;
步骤4:根据步骤2的结果,创建待分析主体与正负面的关系、正负面与舆情新闻来源分类的关系、舆情新闻来源分类和舆情新闻来源的关系、舆情新闻来源与对应的新闻事件类型的关系;
步骤5:完成构建舆情来源知识图谱。


4.根据权利要求1所述的舆情分析方法,其特征在于,所述负面舆情知识图谱的构建包括:
步骤1:根据数据库中的舆情数据,创建负面新闻信息表、负面新闻所涉及时间信息表、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源信息表、舆情新闻来源分类信息表和新闻事件类型信息表;
步骤2:生成负面新闻分别与负面新闻所涉及时间、负面新闻所涉及待分析主体子主体信息表、舆情新闻来源、新闻事件类型的关系表,舆情新闻来源和舆情新闻来源分类的关系表,以及负面新闻与负面新闻的关系表;
步骤3:根据步骤1的结果,创建负面新闻节点、负面新闻所涉及时间节点、负面...

【专利技术属性】
技术研发人员:李振刘恒赵兴莹李勇辉李毓瑞吴梅秦培歌张泽
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1