基于自然语言处理风险预警方法、系统、设备及介质技术方案

技术编号:29205638 阅读:17 留言:0更新日期:2021-07-10 00:41
本发明专利技术提供一种基于自然语言处理风险预警方法、系统、设备及介质,包括:获取待测文本数据集合,对待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;利用自然语言处理算法处理有效文本数据集合,得到文本特征向量;基于文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用文本分类模型对待测文本数据进行分类得到分类结果;根据分类结果匹配相应预警指标,比较预警指标与待测文本数据内相应指标,判断待测文本数据的风险等级;本发明专利技术通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对传统预警方式,风险预警的效率与精度更高。率与精度更高。率与精度更高。

【技术实现步骤摘要】
基于自然语言处理风险预警方法、系统、设备及介质


[0001]本专利技术属于数据处理
,特别是涉及一种基于自然语言处理风险预警方法、系统、设备及介质。

技术介绍

[0002]随着信息技术的不断发展,计算机已然成为了信息传递的一种重要媒介,因此将图像中的文字转换为计算机可进行处理的格式有利于人们对信息的理解、加工和传递。许多视觉领域内和文本相关的任务,如图像检索、风险预测或挖掘等都需要以精确的文本识别结果进行构建。
[0003]目前风险预警引擎系统大多采用互联网+监管领域风险预警,通过提前构建数据分析模型,基于海量数据分析出潜在的风险预警信号,并驱动监管主体进行针对性监管,从而缩小监管盲区、提高监管的精准度。
[0004]然而,由于数据普遍是文本格式,存在无结构、不抽象、无特征等低质量特点,因此,导致无法精准分析该类数据,不利于对海量数据的深层次挖掘。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于自然语言处理风险预警方法、系统、设备及介质,用于解决现有技术基于自然语言处理风险预警时,无法精准预测风险的问题。
[0006]为实现上述目的及其他相关目的,本专利技术的第一方面提供一种基于自然语言处理风险预警方法,包括:获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;根据所述分类结果匹配相应的预警指标参数,比较所述预警指标与所述待测文本数据内相应指标,判断所述待测文本数据的风险等级。
[0007]于所述第一方面的一实施例中,构建所述文本分类模型的步骤,包括:将所述文本特征向量输入到双向GRU网络,得到第一文本特征向量,利用自注意力层对所述第一文本特征向量进行加权计算,得到第二文本特征向量;调用知识库中概念图谱对所述文本特征向量进行概念化处理,得到由概念向量集合构成的概念集;所述第二文本特征向量经池化层处理得到第三特征向量;在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个第三特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征向量;
结合所述第二文本特征向量与概念集特征向量,利用反向传播算法进行训练得到文本分类模型。
[0008]于所述第一方面的一实施例中,还包括:通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:其中,M为训练集大小,N为类别数,R为预测类别,λ||θ||2为正则项,R

为实际类别。
[0009]于所述第一方面的一实施例中,所述获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合的步骤,包括:删除所述待预测文本数据集合中地名与时间,得到删除后的第一文本数据集合;对所述第一文本数据集合采用分词算法进行分词,得到分词后的第二文本数据集合;对所述第二文本数据集合采用词语过滤方法进行过滤,得到有效文本数据集合,所述词语过滤方法至少包括停用词过滤和低频词过滤。
[0010]于所述第一方面的一实施例中,还包括:采用TF

IDF方式提取所述有效文本数据集合,得到相应的文本特征向量。
[0011]于所述第一方面的一实施例中,还包括:根据分类结果对应的预警领域与待测文本数据的风险等级确定关联的干预措施生成干预方案,其中,所述干预方案从关联的习惯、药物、就医、知识和金融的一个或多个维度进行干预。
[0012]于所述第一方面的一实施例中,还包括:当所述待测文本数据对应的分类结果为一个或多个时,根据所述分类结果所对应的预警领域逐一筛选待测文本数据的指标参数;利用不同预警领域对应的预警指数选择配对待测文本数据的指标参数进行比对,如果比较结果在预警指数范围内,则无风险预警;如果比较结果在预警指数范围外,则产生风险预警,并根据比较结果确定预警等级。
[0013]本专利技术的第二方面提供一种基于自然语言处理风险预警系统,包括:数据集获取模块,用于获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;向量提取模块,利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;数据分类模块,用于基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;风险预警模块,用于根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标参数,判断所述待测文本数据的风险等级。
[0014]本专利技术的第三方面提供一种基于自然语言处理风险预警设备,包括:一个或多个处理装置;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现上述的基于自然语言处理风险预警方法。
[0015]本专利技术的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其特
征在于,所述计算机程序用于使所述计算机执行上述的基于自然语言处理风险预警方法。
[0016]如上所述,本专利技术所述的基于自然语言处理风险预警方法、系统、设备及介质的一个技术方案,具有以下有益效果:本专利技术通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;同时,利用文本分类模型能够精准分类;通过对分类结果所属不同预警领域选择不同的预警指标,按照预警指标筛选与其匹配的指标参数进行比较,从而实现风险预警,相对于传统预警方式,风险预警的效率与精度更高。
附图说明
[0017]图1显示为本专利技术提供的一种基于自然语言处理风险预警方法流程图;图2显示为本专利技术提供的一种基于自然语言处理风险预警方法中文本分类模型的构建流程图;图3显示为本专利技术提供的一种文本分类模型的结构示意图;图4显示为本专利技术提供的一种基于自然语言处理风险预警系统结构框图;图5显示为本专利技术提供的一种基于自然语言处理风险预警设备的结构示意图。
具体实施方式
[0018]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0019]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0020]本专利技术主要解决技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理风险预警方法,其特征在于,包括:获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合;利用自然语言处理算法处理所述有效文本数据集合,得到文本特征向量;基于所述文本特征向量结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对待测文本数据进行分类得到分类结果;根据所述分类结果匹配相应的预警指标,比较所述预警指标与所述待测文本数据内相应指标参数,判断所述待测文本数据的风险等级。2.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,构建所述文本分类模型的步骤,包括:将所述文本特征向量输入到双向GRU网络,得到第一文本特征向量,利用自注意力层对所述第一文本特征向量进行加权计算,得到第二文本特征向量;调用知识库中概念图谱对所述文本特征向量进行概念化处理,得到由概念向量集合构成的概念集;所述第二文本特征向量经池化层处理得到第三特征向量;在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个第三特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征向量;结合所述第二文本特征向量与概念集特征向量,利用反向传播算法进行训练得到文本分类模型。3.根据权利要求2所述的基于自然语言处理风险预警方法,其特征在于,还包括:通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:其中,M为训练集大小,N为类别数,R为预测类别,λ||θ||2为正则项,R

为实际类别。4.根据权利要求1所述的基于自然语言处理风险预警方法,其特征在于,所述获取待测文本数据集合,对所述待测文本数据集合中的文本数据进行预处理,得到有效文本数据集合的步骤,包括:删除所述待预测文本数据集合中地名与时间,得到删除后的第一文本数据集合;对所述第一文本数据集合采用分词算法进行分词,得到分词后的第二文本数据集合;对所述第二文本数据集合采用词语过滤方法进行过滤,得到有效文本数据集合,所述词语过滤方法至少包括停用...

【专利技术属性】
技术研发人员:姚娟娟钟南山樊代明
申请(专利权)人:明品云北京数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1