一种面向失信主体行为的信用风险监测方法技术

技术编号:33558666 阅读:12 留言:0更新日期:2022-05-26 22:55
本发明专利技术公开了一种面向失信主体行为的信用风险监测方法,包括:获取失信事件数据;根据失信事件数据聚类获得失信事件基本类型;根据失信事件基本类型确定失信舆情的类别标签和关键词语料库;利用关键词语料库中的关键词进行LDA主题模型训练;对关键词语料库中的关键词进行处理,存入数据库中;将数据库中的失信舆情信息进行清洗;对清洗后失信舆情信息进行自然语言处理,生成智能标签。本发明专利技术应用构建的信用关键词库和机器学习爬虫智能爬取相关失信舆情信息,提高了失信舆情信息爬取的精度和广度。利用数据质量平台对舆情信息进行清洗,并利用NLP文本处理技术对清洗后的信息生成各种舆情所需的智能标签,达到了失信舆情信息的快速、准确的分析。准确的分析。准确的分析。

【技术实现步骤摘要】
一种面向失信主体行为的信用风险监测方法


[0001]本专利技术涉及信用风险监测
,特别涉及一种面向失信主体行为的信用风险监测方法。

技术介绍

[0002]互联网信用信息获取和分析是近几年随着数据库和网络的发展而发展起来的一个研究领域,主要包括信用信息的获取,存储,清洗和分析。而失信舆情作为政府监管部门对失信风险判断的重要依据,需要尽可能广泛的获取特定领域,特定行业,特定地区的信用主体有关的失信舆情信息,进而作出相应的处理。失信舆情信息的处理包括:相关舆情信息的失信领域类别,地域,情感分析,关键词,摘要,传播路径,传播媒体等信息。
[0003]目前对于失信舆情的信息抓取,多采用传统舆情抓取的方法,利用领域专家提供的舆情关键词进行信息爬取,然后存入数据库,并进行舆情信息清洗,然后进行情感分析。而针对失信舆情信息,由于专家提供的领域关键词往往十分有限,导致抓取的信息不准确。而且,简单的情感分析不足以满足信用监管部门对失信舆情的要求。
[0004]因此,如何有效、快速、准确的抓取特定的失信舆情新闻事件,如何快速生成情感、领域、地域、新闻摘要、关键词等信息,是该领域亟待解决的问题。

技术实现思路

[0005]本专利技术实施例提供了一种面向失信主体行为的信用风险监测方法,用以解决现有技术中失信舆情信息抓取不准确,同时对失信舆情信息的分析不足以满足监管需求的问题。
[0006]一方面,本专利技术实施例提供了一种面向失信主体行为的信用风险监测方法,包括:
[0007]获取失信事件数据;
[0008]根据失信事件数据聚类获得失信事件基本类型;
[0009]根据失信事件基本类型确定失信舆情的类别标签和相应的关键词语料库;
[0010]利用关键词语料库中的关键词进行LDA主题模型训练,以扩充关键词语料库;
[0011]对关键词语料库中的关键词进行处理,存入数据库中;
[0012]将数据库中的失信舆情信息导入数据质量处理平台,由数据质量处理平台对失信舆情信息进行清洗;
[0013]对清洗后失信舆情信息进行自然语言处理,生成智能标签。
[0014]本专利技术中的一种面向失信主体行为的信用风险监测方法,具有以下优点:
[0015]应用构建的信用关键词库和机器学习爬虫智能爬取相关失信舆情信息,提高了失信舆情信息爬取的精度和广度。利用数据质量平台对舆情信息进行清洗,并利用NLP文本处理技术对清洗后的信息生成各种舆情所需的智能标签,达到了失信舆情信息的快速、准确的分析。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例提供的一种面向失信主体行为的信用风险监测方法的流程图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]图1为本专利技术实施例提供的一种面向失信主体行为的信用风险监测方法的流程。本专利技术实施例提供了一种面向失信主体行为的信用风险监测方法,包括:
[0020]S100、获取失信事件数据。
[0021]示例性地,可以从信用中国的失信事件数据库中获取失信事件数据,其中,失信事件数据库中记录了各类失信事件,包括失信处罚主体、处罚依据、处罚结果、处罚事件等信息。
[0022]S110、根据失信事件数据聚类获得失信事件基本类型。
[0023]示例性地,可以采用jieba和K

means算法聚类得到失信事件基本类型。
[0024]S120、根据失信事件基本类型确定失信舆情的类别标签和相应的关键词语料库。
[0025]示例性地,确定的类别标签应满足以下要求:尽可能覆盖各种处罚依据,类别标签之间有良好的区分度,且每个类别标签均对应一个类别的关键词语料库。初始状态下,可以采用人工方式,根据处罚的具体文本信息提炼得到类别标签,例如欠薪、欠税等类别标签。
[0026]S130、利用关键词语料库中的关键词进行LDA主题模型训练,以扩充关键词语料库。
[0027]示例性地,LDA是Latent DirichletAllocation的简称,全称隐含狄利克雷分布,是一种主题模型,用于将文档的主题按照概率分布的形式给出。
[0028]S130具体包括:利用关键词语料库中的关键词,结合爬虫工具爬取相关的网页;提取网页中的正文或摘要;将提取的正文或摘要作为LDA的新关键词语料库,结合原有的关键词语料库更新主题。
[0029]在获得网页中的正文或摘要后,可以利用语义相似度计算模型确定网页中短文本的语义相似度,进而指导爬虫工具提升爬取数据的覆盖范围,同时兼顾数据爬取的准确度和效率。利用爬虫工具爬取的网页通常具有主题偏向性,因此基于爬取的网页扩充的关键词语料库也会呈现出偏向某个主题,而采用本专利技术中的LDA主题模型训练后,可以使主题文档回避原有的主题,在颗粒度和覆盖率上更优。
[0030]S140、对关键词语料库中的关键词进行处理,存入数据库中。
[0031]示例性地,对关键词的处理包括:将关键词的格式转换为特定格式,该特定格式包
括:设定字段、ID、标题、内容、时间、来源等。处理后的数据可以存入Mysql数据库中。
[0032]S150、将数据库中的失信舆情信息导入数据质量处理平台,由数据质量处理平台对失信舆情信息进行清洗。
[0033]示例性地,数据质量处理平台对失信舆情信息的清洗包括:对失信舆情信息进行URL去重处理、日期格式化处理、信息拆分、信息合并、空值过滤、类型转化和字段映射处理。
[0034]S160、对清洗后失信舆情信息进行自然语言处理,生成智能标签。
[0035]示例性地,智能标签包括地域标签、领域标签、情感标签、关键词云标签和摘要标签等。
[0036]具体地,可以将清洗后的失信舆情信息输入标签提取模型,获得地域标签。可以利用fasttext模型和已经标注类别的关键词语料库对清洗后的失信舆情信息进行训练,获得领域标签。同时,也可以利用情感分析模型对清洗后的失信舆情信息中的文档进行情感分析、关键词云提取和摘要生成处理,获得情感标签、关键词云标签和摘要标签。
[0037]上述标签提取模型可以基于RNN(Recurrent Neural Network,循环神经网络)和CRF(Conditional Random Field,条件随机场)模型建立,而情感分析模型可以使用snowNLP模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向失信主体行为的信用风险监测方法,其特征在于,包括:获取失信事件数据;根据所述失信事件数据聚类获得失信事件基本类型;根据所述失信事件基本类型确定失信舆情的类别标签和相应的关键词语料库;利用所述关键词语料库中的关键词进行LDA主题模型训练,以扩充所述关键词语料库;对所述关键词语料库中的关键词进行处理,存入数据库中;将所述数据库中的失信舆情信息导入数据质量处理平台,由所述数据质量处理平台对所述失信舆情信息进行清洗;对清洗后所述失信舆情信息进行自然语言处理,生成智能标签。2.根据权利要求1所述的一种面向失信主体行为的信用风险监测方法,其特征在于,还包括:对所述清洗后的失信舆情信息进行聚类处理;根据聚类结果进行时间演化分析和媒体热度分析。3.根据权利要求2所述的一种面向失信主体行为的信用风险监测方法,其特征在于,所述根据聚类结果进行时间演化分析和媒体热度分析,包括:对同一类别的失信舆情信息,按照报道时间、报道媒体、报道次数进行统计,生成相应的统计图表。4.根据权利要求1所述的一种面向失信主体行为的信用风险监测方法,其特征在于,所述根据所述失信事件数据聚类获得失信事件基本类型,包括:利用jieba分词以及K

means算法对所述失信事件数据进行聚类,获得所述失信事件基本类型。5.根据权利要求...

【专利技术属性】
技术研发人员:鲁红军
申请(专利权)人:云基华海信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1