一种基于深度学习技术的企业KYC舆情监控方法及系统技术方案

技术编号:35282671 阅读:22 留言:0更新日期:2022-10-22 12:25
本发明专利技术公开了一种基于深度学习技术的企业KYC舆情监控方法及系统,该方法包括以下步骤:通过预先配置的信息填写模块进行配置信息的填写,并发起舆情检索;通过信息检索模块读取检索脚本模块中的检索脚本,并根据配置信息进行数据检索,同时将检索结果传递给数据处理模块;通过数据处理模块对检索结果进行解析并转化为情感分析模块可以使用的格式;通过情感分析模块对格式转化后的检索结果进行情感标签标识,并输出结果;通过信息完整度校验模块对输出结果进行校验,若输出结果错误则进行驳回;将输出结果输入至报表制作模块,并通过报表制作模块对输出结果进行图像报表的可视化处理。有益效果:实现企业舆情检索分析与可视化呈现。化呈现。化呈现。

【技术实现步骤摘要】
一种基于深度学习技术的企业KYC舆情监控方法及系统


[0001]本专利技术涉及舆情监控产品/服务领域,具体来说,涉及一种基于深度学习技术的企业KYC舆情监控方法及系统。

技术介绍

[0002]KYC(Know Your Customer),既了解你的客户,指对客户身份背景的全面调查,是防范欺诈、身份盗窃、金融诈骗、非法集资等恶意行为的主要环节。从宏观经济环境来看,KYC对金融普惠、金融诚信、保障金融市场良好运行有着重要作用,因此近年来监管机构越来越多的将KYC作为对机构的监管要求之一。对于机构而言,KYC是保障机构业务安全的必需环节。完善的KYC业务体系可以在保障社区价值、满足监管合规要求、保护机构资产安全等方面起到重要且积极的作用。
[0003]舆情监控是企业KYC的重要组成部分之一。舆情监控是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,使企业机构在进行KYC业务时可以及时发现目标企业潜在的舆情风险与负面新闻动向,对企业潜在的运营风险进行判断与识别。
[0004]舆情监控的实现主要依赖于信息自动抓取技术(爬虫)的发展。使用网络爬虫可以高效检索、收集、整合、处理公开的网页信息源,例如新闻标题与正文,为舆情监控提供重要的数据支撑。
[0005]深度学习技术和NLP技术的发展为海量文本数据的分析处理提供了可能。通过词向量、情感分析、循环网络等技术可以使机器自动分析新闻文本的情感属性,对搜索目标主体的整体舆情走向做出自动化分析与判断。
[0006]现有技术中,通过网络爬虫收集数据,并通过关键词模板对网络舆情进行分类,实现对企业舆情走向的判断与识别。其有如下的技术问题:
[0007]1.基于关键词模板的舆情监控产品使用成本高,需要大量人力物力制作维护关键词模板,不能高效适应快速变化的互联网语言环境;
[0008]2.基于关键词模板的舆情监控产品缺乏对语义的智能识别,缺乏基于自然语言处理等技术实现的新闻情感准确判断;
[0009]3.当前现有的舆情监控产品缺乏针对企业KYC合规需求的定制化功能,尤其缺乏可视化舆情分析图表的自动化生成功能。
[0010]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0011]针对相关技术中的问题,本专利技术提出一种基于深度学习技术的企业KYC舆情监控方法及系统,以克服现有相关技术所存在的上述技术问题。
[0012]为此,本专利技术采用的具体技术方案如下:
[0013]根据本专利技术的一个方面,提供了一种基于深度学习技术的企业KYC舆情监控方法,该方法包括以下步骤:
[0014]S1、通过预先配置的信息填写模块进行配置信息的填写,并发起舆情检索;
[0015]S2、通过信息检索模块读取检索脚本模块中的检索脚本,并根据配置信息进行数据检索,同时将检索结果传递给数据处理模块;
[0016]S3、通过数据处理模块对检索结果进行解析并转化为情感分析模块可以使用的格式;
[0017]S4、通过情感分析模块对格式转化后的检索结果进行情感标签标识,并输出结果;
[0018]S5、通过信息完整度校验模块对输出结果进行校验,若输出结果错误则进行驳回;
[0019]S6、将输出结果输入至报表制作模块,并通过报表制作模块对输出结果进行图像报表的可视化处理。
[0020]进一步的,所述S1中配置信息包括关键词、检索模式、检索模板及报告格式。
[0021]进一步的,所述S2中检索结果的内容为新闻标题与时间戳,格式为json字符串。
[0022]进一步的,所述S2中检索脚本模块包括检索脚本集合、验证脚本及脚本信息管理;
[0023]其中,所述检索脚本集合包含若干个Python格式爬虫脚本,每一个脚本对应一个新闻数据源;
[0024]验证脚本用于实现对爬虫脚本的验证,并输出验证结果和验证时间戳;
[0025]脚本信息管理为每一个检索脚本生成一条信息记录,该消息记录包含数据源名称、创建时间、上次修改时间、上次使用时间及最近验证时间。
[0026]进一步的,所述S3中通过数据处理模块对检索结果进行解析并转化为情感分析模块可以使用的格式包括以下步骤:
[0027]S31、数据处理模块解析信息检索模块的json字符串结果,并将检索结果转化为情感分析模块中NLP分析模型可以使用的Python Dataframe格式;
[0028]S32、对检索结果中的异常格式进行空值删除和时间格式转换处理;
[0029]其中,空值删除指删除新闻标题字段为空或长度小于4的记录,时间格式转换指对新闻事件时间的格式统一。
[0030]进一步的,所述S4中通过情感分析模块对格式转化后的检索结果进行情感标签标识,并输出结果包括以下步骤:
[0031]S41、将检索结果的新闻标题输入至情感分析模块的Transformer模型中;
[0032]S42、利用Transformer模型进行标签识别,并输出该新闻标题的预测标签以及标签的对应概率,且标题的最终标签为概率值最大的标签项。
[0033]进一步的,Transformer模型的核心机制

注意力的定义如下:
[0034][0035]其中,Q表示query,对应需要被表达的序列,K和V表示key和value,对应用来表达Q的序列,softmax是激活函数,将多个神经元的输出映射到(0,1)区间内。
[0036]进一步的,所述S5中驳回的标准包括新闻标题条数少于10条及新闻标题标签类别全部为未知。
[0037]进一步的,所述S6中通过报表制作模块对输出结果进行图像报表的可视化处理包括以下步骤:
[0038]S61、通过Python wordcloud包和matplotlib包实现新闻标题关键词的词云图,且根据词频决定词云图中文字的大小;
[0039]S62、通过Python plotlyexpress包实现舆情时序图,图中横坐标为时间,纵坐标为情感标签的折线图;
[0040]S63、通过Python plotlyexpress包实现包含全部情感标签的舆情类别饼状图。
[0041]根据本专利技术的另一方面,提供了一种基于深度学习技术的企业KYC舆情监控系统,该系统包括信息填写模块、信息检索模块、检索脚本模块、数据处理模块、情感分析模块、信息完整度校验模块及报表制作模块;
[0042]其中,所述信息填写模块,用于配置信息的填写,并发起舆情检索;
[0043]所述信息检索模块,用于读取检索脚本模块中的检索脚本,并根据配置信息进行数据检索,同时将检索结果传递给数据处理模块;
[0044]所述检索脚本模块,用于为所述信息检索模块提供检索脚本;
[0045]所述数据处理模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,该方法包括以下步骤:S1、通过预先配置的信息填写模块进行配置信息的填写,并发起舆情检索;S2、通过信息检索模块读取检索脚本模块中的检索脚本,并根据配置信息进行数据检索,同时将检索结果传递给数据处理模块;S3、通过数据处理模块对检索结果进行解析并转化为情感分析模块可以使用的格式;S4、通过情感分析模块对格式转化后的检索结果进行情感标签标识,并输出结果;S5、通过信息完整度校验模块对输出结果进行校验,若输出结果错误则进行驳回;S6、将输出结果输入至报表制作模块,并通过报表制作模块对输出结果进行图像报表的可视化处理。2.根据权利要求1所述的一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,所述S1中配置信息包括关键词、检索模式、检索模板及报告格式。3.根据权利要求1所述的一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,所述S2中检索结果的内容为新闻标题与时间戳,格式为json字符串。4.根据权利要求1所述的一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,所述S2中检索脚本模块包括检索脚本集合、验证脚本及脚本信息管理;其中,所述检索脚本集合包含若干个Python格式爬虫脚本,每一个脚本对应一个新闻数据源;验证脚本用于实现对爬虫脚本的验证,并输出验证结果和验证时间戳;脚本信息管理为每一个检索脚本生成一条信息记录,该消息记录包含数据源名称、创建时间、上次修改时间、上次使用时间及最近验证时间。5.根据权利要求1所述的一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,所述S3中通过数据处理模块对检索结果进行解析并转化为情感分析模块可以使用的格式包括以下步骤:S31、数据处理模块解析信息检索模块的json字符串结果,并将检索结果转化为情感分析模块中NLP分析模型可以使用的Python Dataframe格式;S32、对检索结果中的异常格式进行空值删除和时间格式转换处理;其中,空值删除指删除新闻标题字段为空或长度小于4的记录,时间格式转换指对新闻事件时间的格式统一。6.根据权利要求1所述的一种基于深度学习技术的企业KYC舆情监控方法,其特征在于,所述S4中通过情感分析模块对格式转化后的检索结果进行情感标签标识,并输出结果包括以下步骤:S41、将检索结果的新闻标题输入至情感分...

【专利技术属性】
技术研发人员:杨博雅汪德嘉徐文强
申请(专利权)人:江苏通付盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1