用于企业风险预警的舆情分析方法及系统技术方案

技术编号:29789775 阅读:20 留言:0更新日期:2021-08-24 18:08
本发明专利技术公开一种用于企业风险预警的舆情分析方法及系统,能够在减轻人工工作量的前提下,准确高效的向相关企业提供舆情分析和预警服务。该方法包括:从任一指定网站中采集舆情文本数据,并针对舆情文本数据的网站来源构建数据源序列;基于预设的风险标签集对舆情文本数据的风险标签进行匹配,并构建风险标签序列;利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。该系统应用有上述方案所提的方法。

【技术实现步骤摘要】
用于企业风险预警的舆情分析方法及系统
本专利技术涉及互联网
,尤其涉及一种用于企业风险预警的舆情分析方法及系统。
技术介绍
目前企业风险预警领域越来越依赖并受益于人工智能及自然语言处理等技术的应用,随着大量网络舆情的出现,企业的负面舆情或者风险事件对于企业风险的识别与预警起着关键的作用。对于需要关注企业风险的用户来说,如贷款审批经理或者风险控制经理,他们关注企业的风险事件,获取足够多的风险事件信息对于了解企业的风险状态至关重要,但这需要大量的人工工作和成本,当企业数量众多时,人工难以覆盖全面的信息,特别是对于网络上出现的大量与企业相关的舆情信息,人工阅读比较耗时,难以准确对相关企业进行风险预警。
技术实现思路
本专利技术的目的在于提供一种用于企业风险预警的舆情分析方法,能够在减轻人工工作量的前提下,准确高效的向相关企业提供舆情分析和预警服务。为了实现上述目的,本专利技术的第一方面提供一种用于企业风险预警的舆情分析方法,包括:从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。优选地,针对所述舆情文本数据的网站来源构建数据源序列的方法包括:统计指定网站的总数量并配置各指定网站的信用权重,构建与总数量维度一致的数据源序列集;识别来源网站在数据源序列集中的位置,构建对应的数据源序列同时匹配对应的信用权重。优选地,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括:预先构建风险标签集,所述风险标签集包括多个风险标签类别,且每个风险标签类别对应至少一个风险关键词;针对风险标签集中的各风险标签类别配置相应的风险权重。较佳地,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列的方法包括:采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配,并根据匹配结果查找对应的风险标签类别;基于所述风险标签类别在风险标签集中的所属位置,构建风险标签序列。优选地,情感分类模型的训练方法包括:从获取的舆情语料中分别抽取各种情感极性的舆情语料,构建标注语料集;基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型;所述情感极性的分类包括积极情感、中性情感和消极情感,所述情感极性序列为3种情感极性之一的序列表示。较佳地,利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列之后还包括:针对每种情感极性配置相应的极性权重。优选地,对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括:预先构建包括多个企业实体的企业监控列表;结合中文分词工具和/或NER命名实体识别工具采用关键词匹配的方式识别出所述舆情文本数据关联的企业实体名称;基于企业实体名在企业监控列表中的所属位置,构建企业关联序列。优选地,根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果之前还包括:预先设定多种风险预警等级,同时定义每种风险预警等级的边界区间。较佳地,根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果的方法包括:采用舆情风险预警公式对所述舆情文本数据的风险值进行计算;结合企业关联序列计算所述舆情文本数据对应的预警值,并基于所属的边界区间输出相应的风险预警等级;所述Ri表示对应风险标签类别的风险权重,所述Li表示风险标签序列,所述n表示风险标签集中风险标签类别的总数量,所述Wi表示指定网站的信用权重,所述Si表示数据源序列,所述k表示指定网站的总数量,所述Qi表示极性权重,所述Ti表示情感极性序列,所述p表示情感极性的总数量。与现有技术相比,本专利技术提供的用于企业风险预警的舆情分析方法具有以下有益效果:本专利技术提供的用于企业风险预警的舆情分析方法中,通过从任一指定网站中采集舆情文本数据,处理后构建网站来源的网站来源,以及基于预设的风险标签集对舆情文本数据的风险标签进行匹配构建风险标签序列,同时利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列,最终根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。可见,本专利技术通过多维度的数据处理,对企业潜在的风险信息进行深度挖掘形成一套舆情分析流程,实现对企业潜在风险进行智能化预警的功能,进而辅助风险业务人员更高效地进行企业风险管控与评估。本专利技术的第二方面提供一种用于企业风险预警的舆情分析系统,应用于上述技术方案所述的用于企业风险预警的舆情分析方法中,所述系统包括:舆情采集模块,用于从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;风险标签模块,用于基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;情感极性及实体名称识别模块,用于利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;预警输出模块,用于根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。与现有技术相比,本专利技术提供的用于企业风险预警的舆情分析系统的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。本专利技术的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述用于企业风险预警的舆情分析方法的步骤。与现有技术相比,本专利技术提供的计算机可读存储介质的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例中用于企业风险预警的舆情分析方法的一种流程示意图;图2为本专利技术实施例中用于企业风险预警的舆情分析方法的另一种流程示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅本文档来自技高网...

【技术保护点】
1.一种用于企业风险预警的舆情分析方法,其特征在于,包括:/n从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;/n基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;/n利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;/n根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。/n

【技术特征摘要】
1.一种用于企业风险预警的舆情分析方法,其特征在于,包括:
从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。


2.根据权利要求1所述的方法,其特征在于,针对所述舆情文本数据的网站来源构建数据源序列的方法包括:
统计指定网站的总数量并配置各指定网站的信用权重,构建与总数量维度一致的数据源序列集;
识别来源网站在数据源序列集中的位置,构建对应的数据源序列同时匹配对应的信用权重。


3.根据权利要求1所述的方法,其特征在于,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括:
预先构建风险标签集,所述风险标签集包括多个风险标签类别,且每个风险标签类别对应至少一个风险关键词;
针对风险标签集中的各风险标签类别配置相应的风险权重。


4.根据权利要求3所述的方法,其特征在于,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列的方法包括:
采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配,并根据匹配结果查找对应的风险标签类别;
基于所述风险标签类别在风险标签集中的所属位置,构建风险标签序列。


5.根据权利要求1所述的方法,其特征在于,情感分类模型的训练方法包括:
从获取的舆情语料中分别抽取各种情感极性的舆情语料,构建标注语料集;
基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型;
所述情感极性的分类包括积极情感、中性情感和消极情感,所述情感极性序列为3种情感极性之一的序列表示。


6.根据权利要求5所述的方法,其特征在于,利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感...

【专利技术属性】
技术研发人员:李加庆
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1