兼容性数据导入的线索分析方法、系统及可读存储介质技术方案

技术编号:30447521 阅读:17 留言:0更新日期:2021-10-24 18:40
本发明专利技术公开了一种兼容性数据导入的线索分析方法、系统及可读存储介质,所述方法包括:定义多种数据类型,根据所定义的数据类型对提供的数据进行结构化处理;对结构化数据通过预设字段解析规则进行清洗并存储到搜索引擎服务器;通过关键字和/或类型查询并历遍所述结构化数据,汇总在历遍结构化数据中的搜索路线并展示查询的所有关联数据信息。本申请通过定义数据源、数据类型后将非结构化数据自动地转换为结构化数据,极大的简化了数据导入的过程,可以实现线上零代码直接接入数据,使得系统数据接入的兼容性大大提升,从而提高了线索分析的效率。分析的效率。分析的效率。

【技术实现步骤摘要】
兼容性数据导入的线索分析方法、系统及可读存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种兼容性数据导入的线索分析方法、系统及可读存储介质。

技术介绍

[0002]随着互联网的快速普及,不仅方便了人们的生活,同时也带来了违法犯罪的隐患。一些不法分子常常利用网络骗取受害人钱财,给受害人的财产权带来侵害。现实社会的种种复杂关系都能在网络得到体现,但是应当看到互联网是靠电脑的连接关系而形成的一个虚拟空间,它实际并不存在;就互联网来说,这种联接关系是靠两个支柱来维系的,一个是技术上的tcp/ip,另一个是用户方面资源共享原则,正是这两个支柱,使得虚拟空间得以形成。
[0003]网络诈骗的方式种类繁多,概括总结可以分为:一是通过网络病毒方式盗取别人虚拟财产,一般不需要经过被盗人的程序,在后门进行,速度快,而且可以跨地区传染,使侦破时间更长。二是网友欺骗,一般指的是通过网上交友方式,从真人或网络结识,待被盗者信任后再获取财物资料的方式,速度慢,不过侦破速度较慢。三是网络"庞氏诈骗",一般是指通过互联虚假宣传快速发财致富,组织没有互联网工作经验人员,用刷网络广告等手段为噱头,收敛会费进行诈骗。我们知道网络诈骗的各种实施方式都是基于网络数据传播为载体的,诈骗分子在寻找目标是一般是通过在网络上发布各种信息来实现的,因此,我们可以通过网络布控方式获取大量地疑似网络诈骗的数据,从而能够实现拦截诈骗信息、追踪诈骗分子等方式打击网络诈骗行为,网络布控是指一种通过监控互联网数据的巡检方式,比如一些国内网站上如果有非法信息,就会被有关部门通过这种方式截取发现,及时对这种信息进行删除修改,维护网络和谐安全,或从中得到一定的情报用于破案。另外,在一些正规网站和聊天工具的服务器,都有网络布控的存在,如果出现违法反动信息,就会被它截取。
[0004]通过网络布控等多种方式获取的疑似网络诈骗线索数据信息,数据量巨大而且繁杂,各种文件格式类型的数据均有,若是人工进行整理难以实现,一般是导入到线索分析系统进行比对分析得到有价值的侦破线索,由于数据类型众多,一般需要将这些数据整理成为线索分析系统能够识别的统一文件格式类型才能够进行线索比对分析,这样将耗费大量的人力物力,同时线索分析的效率低下。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种兼容性数据导入的线索分析方法、系统及可读存储介质,旨在解决线索分析时需要统一数据文件格式类型造成效率低下的技术问题。
[0006]为了解决上述技术问题,本专利技术的技术方案如下:本专利技术的第一个方面,提供了一种兼容性数据导入的线索分析方法,该方法包括:定义多种数据类型,根据所定义的数据类型对提供的数据进行结构化处理;
对结构化数据通过预设字段解析规则进行清洗并存储到搜索引擎服务器;通过关键字和/或类型查询并历遍所述结构化数据,汇总在历遍结构化数据中的搜索路线并展示查询的所有关联数据信息。
[0007]进一步的,所述定义多种数据类型步骤之前,所述方法还包括:定义数据源,所述数据源包括数据提供方式、每一所述数据提供方式的数据接入信息,并针对每一数据源设置数据拉取频率及每次拉取量。
[0008]数据源包括数据提供商的数据提供方式,比如数据库、FTP、SFTP、MQ等。考虑到提供商的服务器压力,可对不同数据源设置不同的拉取频率及每次拉取量。
[0009]具体的,所述数据源包括数据库、FTP服务器、SFTP服务器、端口上传文件,预先设置数据接入的数据库信息;预先设置FTP服务器、SFTP服务器的信息并采集FTP服务器、SFTP服务器的预设目录内的数据;若是接入数据是文件类型则通过数据上传端口上传。
[0010]可选的,所述根据所定义的数据类型对提供的数据进行结构化处理的还包括:根据每一种数据类型的映射关系将非结构化数据转化成结构化数据,当无法结构化时,存储原始内容并提供全文检索。
[0011]进一步的,所述根据所定义的数据类型对提供的数据进行结构化处理的步骤包括:所述数据类型至少包括txt 、xls 、xlsx 、rar 、tar、gz 、zip 、jpg 、png、doc、docx 、pdf;针对每一所述数据类型设置数据名称,数据存储的表名,字段映射关系,字段解析规则,从而建立结构化映射关系。
[0012]具体的,当所述数据类型是txt文档时,所述结构化处理步骤包括:读取txt文件内容,通过回车符将内容拆分为若干行;识别列信息,从第一行开始使用预设分隔符"
", ",", " ", "

", "|"进行分割,直到找到映射关系中的列名,保存列信息,此时下一行作为数据内容的开始行;从开始行逐行解析为数据内容。
[0013]具体的,当所述数据类型是xls文件或xlsx文件时,所述结构化处理步骤包括:使用POI读取xls文件或xlsx文件内容;识别列信息,从第一行开始找到映射关系中的列名。此时下一行作为数据内容的开始行;从开始行解析数据内容。
[0014]具体的,当所述数据类型是pdf文件或图片格式(jpg 、png)文件时,所述结构化处理步骤包括:通过OCR技术识别pdf文件或图片格式文件内容,通过回车符将内容拆分为若干行;识别列信息,从第一行开始使用预设分隔符"
", ",", " ", "

", "|"进行分割,直到找到映射关系中的列名,保存列信息,此时下一行作为数据内容的开始行;从开始行逐行解析为数据内容。
[0015]可选的,当数据内容是银行流水时,系统会按各银行的模板进行识别。
[0016]进一步的,所述对结构化数据通过预设字段解析规则进行清洗并存储到搜索引擎
服务器还包括:在预设字段解析规则时,通过自定义方式给字段打上业务标签。
[0017]进一步的,所述通过关键字和/或类型查询并历遍所述结构化数据,汇总在历遍结构化数据中的搜索路线并展示查询的所有关联数据信息的步骤包括:通过关键字和/或类型查询所述结构化数据,利用所查询到的关联数据作为线索进一步查询所述结构化数据,直至达到数据上限或者无相关数据;汇总在历遍所述结构化数据中的搜索路线并展示找到的所有关联数据信息,并通过思维导图的方式展示分析过程和结果。
[0018]基于同一专利技术构思,本专利技术的另一方面,提供了一种兼容性数据导入的线索分析系统,所述系统包括处理器、存储器及数据总线;所述数据总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的兼容性数据导入的线索分析程序,以实现以下步骤:定义多种数据类型,根据所定义的数据类型对提供的数据进行结构化处理;对结构化数据通过预设字段解析规则进行清洗并存储到搜索引擎服务器;通过关键字和/或类型查询并历遍所述结构化数据,汇总在历遍结构化数据中的搜索路线并展示查询的所有关联数据信息。
[0019]基于同一专利技术构思,本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有兼容性数据导入的线索分析程序,所述兼容性数据导入的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种兼容性数据导入的线索分析方法,其特征在于,所述方法包括:定义多种数据类型,根据所定义的数据类型对提供的数据进行结构化处理;对结构化数据通过预设字段解析规则进行清洗并存储到搜索引擎服务器;通过关键字和/或类型查询并历遍所述结构化数据,汇总在历遍所述结构化数据中的搜索路线并展示查询的所有关联数据信息。2.根据权利要求1所述的兼容性数据导入的线索分析方法,其特征在于,所述定义多种数据类型步骤之前,所述方法还包括:定义数据源,所述数据源包括数据提供方式、每一所述数据提供方式的数据接入信息,并针对每一数据源设置数据拉取频率及每次拉取量。3.根据权利要求2所述的兼容性数据导入的线索分析方法,其特征在于,所述数据源包括数据库、FTP服务器、SFTP服务器以及端口上传文件;所述方法还包括:预先设置数据接入的数据库信息;预先设置FTP服务器、SFTP服务器的信息并采集所述FTP服务器、所述SFTP服务器的预设目录内的数据,若是接入数据是文件类型则通过数据上传端口上传。4.根据权利要求1所述的兼容性数据导入的线索分析方法,其特征在于,所述根据所定义的数据类型对提供的数据进行结构化处理的还包括:根据每一种数据类型的映射关系将非结构化数据转化成结构化数据,当无法结构化时,存储原始内容并提供全文检索。5.根据权利要求1所述的兼容性数据导入的线索分析方法,其特征在于,所述根据所定义的数据类型对提供的数据进行结构化处理的步骤包括:所述数据类型至少包括txt 、xls 、xlsx 、rar 、tar、gz 、zip 、jpg 、png、doc、docx 、pdf;针对每一所述数据类型设置数据名称、数据存储的表名、字段映射关系、字段解析规则,从而建立结构化映射关系。6.根据权利要求5所述的兼容性数据导入的线索分析方法,其特征在于,当所述数据类型是txt文档时,所述结构化处理步骤包括:读取txt文件内容,通过回车符将内容拆分为若干行;识别列信息,从第一行开始使用预设分隔符"\t", ",", " ", "

", "|"进行分割,直到找到映射关系中的列名,保存列信息,此时下一行作为数据内容的开始行;从开始行逐行解析为数据内容;当所述数据类型是xls文件或xl...

【专利技术属性】
技术研发人员:李涛
申请(专利权)人:深圳世纪网通数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1