识别风险数据的方法、装置、和电子设备制造方法及图纸

技术编号：32356184 阅读：15 留言：0更新日期：2022-02-20 03:16

本发明专利技术涉及计算机信息处理领域，针对特定行业业务中风险数据识别时与数据类别相关的敏感词容易与相邻行业业务的数据敏感词混淆的缺陷，提出了本发明专利技术的识别风险数据的方法、装置、设备和介质，通过对网络信息大数据识别中更大程度地减少干扰，尽可能多的利用文本信息，将人工识别与模型识别相结合，提升自动挖掘识别效果，以保证尽可能多地排除被误击中的安全数据的同时识别尽可能多的风险数据，提高识别效率。识别效率。识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
识别风险数据的方法、装置、和电子设备

[0001]本专利技术涉及计算机信息处理领域，具体而言，涉及一种识别风险的方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]随着社会和网络的发展，通过网络开展各种行业的信息处理越来越多，而网上的数据量也快速增加，但通过网络进行的各种数据和信息处理，往往存在各种数据风险，不同的行业、领域甚至各种领域下的业务流程的又有自身的特定风险特征，涉及相关数据的用户也可能存在风险。
[0003]从网络大数据中识别或者说通过数据评估出相应的风险数据并识别带来风险的对象，则需要更有效的手段。现有技术中采集人工标注结合传统朴素贝叶斯等有监督分类模型训练人工标注数据来识别存在风险的数据和引起风险的对象，但是这类数据和对象的文本特点往往是相关的类别敏感词多，在实际风控中，许多非此行业的且也多具有此类敏感词的其他特殊行的职业/行业、业务等也容易被误击中，识别准确率低。因而，由于行业的复杂性、相邻关联等情况，文本语言本身无法区分，增加了很多最终还需要更多需要排除并非相应行业的特定风险数据的时间和人工成本，评估和识别的效率较低，过程复杂化。
[0004]因而，需要改进现有的识别风险数据的方案，以简化算法，提升识别效率降低成本。

技术实现思路

[0005]针对现有技术的上述缺陷，本专利技术提供一种识别风险数据的方法、装置、电子设备和计算机可读介质，以解决如何提高效率的技术问题；进一步，如何通过充分利用文本信息，更准确地自动挖掘评估特定的风险数据的技术问题；进一步，如何...

【技术保护点】

【技术特征摘要】
1.一种识别风险数据的方法，其特征在于，包括：根据获取待评估用户的用户特征，得到第一文本数据集合；提取所述第一文本数据集合的文本信息，得到第三文本数据集合；使用所述第三文本数据集合构建文本特征变量；将所述文本特征变量输入预先获取的特定jieba风险数据评估模型进行计算，得到相应的模型评分；基于所述模型评分判断相应的所述用户特征是否属于特定风险数据以识别相应的所述用户是否为风险用户；所述使用所述第三文本数据集合构建文本特征变量，包括：过滤所述第三文本数据集合中的混淆语义数据的步骤。2.根据权利要求1所述的方法，其特征在于，提取所述第一文本数据集合的文本信息，得到第三文本数据集合，具体包括：对所述第一文本数据集合采用分词算法进行分词，把一段话切分为一组词的序列，得到分词后的第二文本数据集合，根据处理后的第二文本数据集合保留的有效数据形成第三文本数据集合。3.根据权利要求2所述的方法，其特征在于，包括：所述分词算法为jieba分词；使用jieba分词软件进行分词同时进行词性标注；并且，筛选词性以保留部分分词结果。4.根据权利要求2至3任一项所述的方法，其特征在于，根据处理后的第二文本数据集合保留的有效数据形成第三文本数据集合具体包括：对所述第二文本数据集合采用词语过滤方法进行过滤，得到保留的有效分词数据，以构建第三文本数据集合；其中，所述词语过滤方法包括停用词过滤、和/或低频词过滤。5.根据权利要求1至4任一项所述的方法，其特征在于，所述使用所述第三文本数据集合构建文本特征变量，还包括：预先设置特定风险数据对应的敏感词词库，其中，所述特定风险数据对应的敏感词词库中预先设置有特定风险数据的敏感词，以及，对所述第三文本数据集合中的常见特定风险数据的敏感词进行...

【专利技术属性】
技术研发人员：李晔，刘涛，薛贤巨，
申请(专利权)人：北京淇瑀信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人