识别风险数据的方法、装置、和电子设备制造方法及图纸

技术编号:32356184 阅读:15 留言:0更新日期:2022-02-20 03:16
本发明专利技术涉及计算机信息处理领域,针对特定行业业务中风险数据识别时与数据类别相关的敏感词容易与相邻行业业务的数据敏感词混淆的缺陷,提出了本发明专利技术的识别风险数据的方法、装置、设备和介质,通过对网络信息大数据识别中更大程度地减少干扰,尽可能多的利用文本信息,将人工识别与模型识别相结合,提升自动挖掘识别效果,以保证尽可能多地排除被误击中的安全数据的同时识别尽可能多的风险数据,提高识别效率。识别效率。识别效率。

【技术实现步骤摘要】
识别风险数据的方法、装置、和电子设备


[0001]本专利技术涉及计算机信息处理领域,具体而言,涉及一种识别风险的方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]随着社会和网络的发展,通过网络开展各种行业的信息处理越来越多,而网上的数据量也快速增加,但通过网络进行的各种数据和信息处理,往往存在各种数据风险,不同的行业、领域甚至各种领域下的业务流程的又有自身的特定风险特征,涉及相关数据的用户也可能存在风险。
[0003]从网络大数据中识别或者说通过数据评估出相应的风险数据并识别带来风险的对象,则需要更有效的手段。现有技术中采集人工标注结合传统朴素贝叶斯等有监督分类模型训练人工标注数据来识别存在风险的数据和引起风险的对象,但是这类数据和对象的文本特点往往是相关的类别敏感词多,在实际风控中,许多非此行业的且也多具有此类敏感词的其他特殊行的职业/行业、业务等也容易被误击中,识别准确率低。因而,由于行业的复杂性、相邻关联等情况,文本语言本身无法区分,增加了很多最终还需要更多需要排除并非相应行业的特定风险数据的时间和人工成本,评估和识别的效率较低,过程复杂化。
[0004]因而,需要改进现有的识别风险数据的方案,以简化算法,提升识别效率降低成本。

技术实现思路

[0005]针对现有技术的上述缺陷,本专利技术提供一种识别风险数据的方法、装置、电子设备和计算机可读介质,以解决如何提高效率的技术问题;进一步,如何通过充分利用文本信息,更准确地自动挖掘评估特定的风险数据的技术问题;进一步,如何在尽可能多的排除误击中风险数据对象的同时发现尽可能多的风险对象以适应各种特定行业的风险对象挖掘识别的技术问题。从而,简化评估过程,降低识别成本提升识别效率。
[0006]为了解决上述技术问题,本专利技术第一方面提出一种识别风险数据的方法,包括:根据获取待评估用户的用户特征,得到第一文本数据集合;提取所述第一文本数据集合的文本信息,得到第三文本数据集合;使用所述第三文本数据集合构建文本特征变量;将所述文本特征变量输入预先获取的特定jieba风险数据评估模型进行计算,得到相应的模型评分;基于所述模型评分判断相应的所述用户特征是否属于特定风险数据以识别相应的所述用户是否为风险用户;所述使用所述第三文本数据集合构建文本特征变量,包括:过滤所述第三文本数据集合中的混淆语义数据的步骤。
[0007]根据本专利技术的一种优选实施方式,提取所述第一文本数据集合的文本信息,得到第三文本数据集合,具体包括:对所述第一文本数据集合采用分词算法进行分词,把文本数据中每一段话切分为一组词的序列,得到分词后的第二文本数据集合,处理第二文本数据集合中的分词以保留有效的数据(如分词)根据处理后的第二文本数据集合保留的有效数
据形成第三文本数据集合。
[0008]根据本专利技术的一种优选实施方式,所述分词算法为jieba分词,使用jieba分词软件进行分词及词性标注,并通过词性筛选,保留部分分词结果。
[0009]根据本专利技术的一种优选实施方式,根据处理后的第二文本数据集合保留的有效数据形成第三文本数据集合具体包括:对所述第二文本数据集合中分词,采用词语过滤方法进行过滤,从而得到保留的有效分词数据,通过这些有效分词数据(如:未筛选保留的全部分词结果、或者筛选后所保留的部分分词结果等),构建第三文本数据集合;其中,所述词语过滤方法包括停用词过滤、和/或低频词过滤。
[0010]根据本专利技术的一种优选实施方式,所述使用所述第三文本数据集合构建文本特征变量,还包括:预先设置特定风险数据对应的敏感词词库,其中,所述特定风险数据对应的敏感词词库中预先设置有特定风险数据的敏感词,以及,对所述第三文本数据集合中的常见特定风险数据的敏感词进行计数,并将计数结果作为模型变量;和/或,纠正所述第三文本数据集合中的错别字;和/或,合并所述第三文本数据集合中的近义词;和/或,对所述第三文本数据集合进行词向量的构建。
[0011]根据本专利技术的一种优选实施方式,所述特定风险数据评估模型是XGBoost模型或逻辑回归模型。
[0012]根据本专利技术的一种优选实施方式,所述过滤所述第三文本数据集合中的混淆语义数据,具体包括:判断所述第三文本数据集合中的信息是否属于特殊行业中的混淆语义数据,如果属于所述特殊行业中的混淆语义数据,则过滤掉该条信息;和/或,所述特定风险数据包括黑中介数据。
[0013]本专利技术第二方面提出一种识别风险数据的装置,包括:第一文本数据集合获取模块,用于根据获取待评估用户的用户特征,得到第一文本数据集合;文本信息提取模块,用于提取所述第一文本数据集合的文本信息,得到第三文本数据集合;变量构建模块,用于使用所述第三文本数据集合构建文本特征变量;评分计算模块,用于将所述文本特征变量输入预先获取的特定jieba风险数据评估模型进行计算,得到相应的模型评分;判定识别模块,用于基于所述模型评分判断相应的所述用户特征是否属于特定风险数据以识别相应的所述用户是否为风险用户;其中,所述变量构建模块包括:混淆语义数据过滤模块,用于过滤所述第三文本数据集合中的混淆语义数据。
[0014]本专利技术第三方面提出一种电子设备,包括:处理器;以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行前述的第一方面的方法。
[0015]本专利技术第四方面提出一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现前述的第一方面的方法。
[0016]本专利技术的一个实施方式中,通过对网络信息大数据识别中更大程度地减少干扰,尽可能多的利用文本信息,将人工识别与模型识别相结合,提升自动挖掘识别效果,以保证尽可能多地的排除被误击中的对象的同时识别发现尽可能多的风险数据的产生对象即风险对象或者称为风险用户,提高大数据挖掘识别的效率;进一步,通过对文本信息的处理,并对特殊行职业进行判断,将判断结果作为变量入模,同时充分利用非所述特殊行职业的敏感词类的文本信息,通过自然语言处理的方式找出特殊行职业的文本信息与非该特殊行职业的文本信息间的差别,提升识别的准确性;进而,通过充分利用更准确的文本信息,高
效率地自动挖掘识别出风险数据的产生对象,在尽可能多的排除误击中对象的同时发现尽可能多的风险对象,以适应各种特定行业的风险对象挖掘识别。由此,简化了评估过程,降低识别成本提升识别效率,提升了行业适应性。
附图说明
[0017]为了使本专利技术所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本专利技术的具体实施例。但需声明的是,下面描述的附图仅仅是本专利技术的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
[0018]图1是根据本专利技术的识别风险数据的方法的一实施例的主要流程图。
[0019]图2是根据本专利技术的方法的一实施例的构建模型变量的主要可以采用的步骤的示意图。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别风险数据的方法,其特征在于,包括:根据获取待评估用户的用户特征,得到第一文本数据集合;提取所述第一文本数据集合的文本信息,得到第三文本数据集合;使用所述第三文本数据集合构建文本特征变量;将所述文本特征变量输入预先获取的特定jieba风险数据评估模型进行计算,得到相应的模型评分;基于所述模型评分判断相应的所述用户特征是否属于特定风险数据以识别相应的所述用户是否为风险用户;所述使用所述第三文本数据集合构建文本特征变量,包括:过滤所述第三文本数据集合中的混淆语义数据的步骤。2.根据权利要求1所述的方法,其特征在于,提取所述第一文本数据集合的文本信息,得到第三文本数据集合,具体包括:对所述第一文本数据集合采用分词算法进行分词,把一段话切分为一组词的序列,得到分词后的第二文本数据集合,根据处理后的第二文本数据集合保留的有效数据形成第三文本数据集合。3.根据权利要求2所述的方法,其特征在于,包括:所述分词算法为jieba分词;使用jieba分词软件进行分词同时进行词性标注;并且,筛选词性以保留部分分词结果。4.根据权利要求2至3任一项所述的方法,其特征在于,根据处理后的第二文本数据集合保留的有效数据形成第三文本数据集合具体包括:对所述第二文本数据集合采用词语过滤方法进行过滤,得到保留的有效分词数据,以构建第三文本数据集合;其中,所述词语过滤方法包括停用词过滤、和/或低频词过滤。5.根据权利要求1至4任一项所述的方法,其特征在于,所述使用所述第三文本数据集合构建文本特征变量,还包括:预先设置特定风险数据对应的敏感词词库,其中,所述特定风险数据对应的敏感词词库中预先设置有特定风险数据的敏感词,以及,对所述第三文本数据集合中的常见特定风险数据的敏感词进行...

【专利技术属性】
技术研发人员:李晔刘涛薛贤巨
申请(专利权)人:北京淇瑀信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1