一种数据智能识别分发执行方法及系统技术方案

技术编号:35751100 阅读:17 留言:0更新日期:2022-11-26 18:56
一种数据智能识别分发执行方法及系统,涉及数据处理和人工智能技术领域。本发明专利技术为了解决现有数据识别系统分发属地耗时长、不能自动向属地分发、分发准确率低的缺陷,采用采集取证模块对用户提交的数据进行采集;将采集到的数据进行分段得到分段矩阵;采用属地识别模块对分段矩阵进行识别;将识别结果通过数据分发模块按照区域进行划分,得到识别结果矩阵;根据识别结果矩阵中每列非零元素的个数自适应的开辟缓存空间,将数据分发至接收地管理模块。本发明专利技术主要用于对网络数据的识别并根据识别结果向属地进行分发。别结果向属地进行分发。别结果向属地进行分发。

【技术实现步骤摘要】
一种数据智能识别分发执行方法及系统


[0001]本专利技术涉及数据处理和人工智能
,尤其涉及一种数据智能识别分发执行方法及 系统。

技术介绍

[0002]由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的 网络舆情时,若不及时控制,很容易形成舆论危机,严重时甚至影响公共安全。对相关部门 来说,如何及时控制负面内容、有效引导,成为网络舆情管理的一大难点。在这种情况下, 建设能够迅速进行舆情数据分发的系统十分必要。
[0003]目前在传统的业务系统中,针对舆情数据的下发,需要业务员人工根据舆情数据的URL 判断该条数据下发给哪个属地,这种方式耗时时间太长而且准确率低。
[0004]因此,就需要一种能够自动进行属地下发、方便快捷、准确率高的数据智能识别分发执 行方法及系统。

技术实现思路

[0005]本专利技术的目的是为了解决现有数据识别系统分发属地耗时长、不能自动向属地分发、分 发准确率低的缺陷,提供了一种能够自动进行属地下发、方便快捷、准确率高的数据智能识 别分发执行方法及系统。
[0006]本专利技术所述的一种数据智能识别分发执行方法,包括以下步骤:
[0007]S1、采用采集取证模块对用户提交的数据进行采集;
[0008]S2、将采集到的数据进行分段得到分段矩阵;
[0009]S3、采用属地识别模块对分段矩阵进行识别;
[0010]S4、将识别结果通过数据分发模块按照区域进行划分,得到识别结果矩阵;
[0011]S5、根据识别结果矩阵中每列非零元素的个数自适应的开辟缓存空间,将数据分发至接 收地管理模块。
[0012]进一步地:所述采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单 元;在S1中,具体包括以下步骤:
[0013]S11、通过所述采集单元对用户提交的数据进行多进程采集取证,所述数据为URL数据; 采用所述监控单元对采集过程进行实时监控;
[0014]S12、利用所述截图单元对URL数据页面进行截图;
[0015]S13、在采集过程中,采用所述抽取单元对用户提交的URL数据进行实时抽取,同时采 用下载单元对抽取的数据进行下载。
[0016]进一步地:在S1中,所述采集单元、截图单元和抽取单元均采用restful服务的方式。
[0017]进一步地:所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;在 S3中,具体包括以下步骤:
[0018]S31、将分段矩阵传送至域名提取单元;
[0019]S32、对分段矩阵中元素提取有效的数据,采用所述域名提取单元对数据按照粒度从细 到粗的顺序进行提取,并将提取到的域名放入域名池中;
[0020]S33、对域名池中的域名进行统计,通过所述策略管理单元设定阈值,如果用户上传的 总数据量达到阈值,则批量调用所述属地识别单元,如果未达到阈值,则单个调用所述属地 识别单元;
[0021]S34、所述属地识别单元根据提取到的域名获取对应的属地信息。
[0022]进一步地:所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和 地域显示单元;在S32中,具体包括以下步骤:
[0023]S321、调用所述缓存管理单元识别当前缓存库中是否有与所述数据对应的地域信息,若 未发现地域信息,则调用所述数据库管理单元识别当前数据库中是否有与所述数据对应的地 域信息;若仍未发现,则调用备案地查询单元通过备案地查询网站进行识别与所述数据对应 的地域信息,并将查询到的地域信息新建至所述数据库和所述缓存库;
[0024]S322、根据识别到的地域信息和用户手动新增的地域信息发送至所述地域显示单元显示, 所述地域信息包括域名、属地和/或网站。
[0025]进一步地:所述数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;在 S4中,具体包括以下步骤:
[0026]S41、所述分发单元对所述识别结果进行分发;
[0027]S42、所述异常检测单元实时对分发过程进行检测,若检测到属地信息为空或属地不在 接收地列表中,则标记该识别结果并阻止分发单元进行分发;
[0028]S43、所述重复性监测单元实时将已分发的识别结果放入分发池中,并将下一待分发的 识别结果与所述分发池进行对比,若所述分发池中已包含该识别结果,则阻止分发单元进行 分发。
[0029]进一步地:在S5中,根据所述识别结果矩阵列的向量元素的差异性得到重塑矩阵,根 据重塑矩阵每列非零元素个数,采用接收地管理模块自适应的开辟缓存空间进行数据分发, 同时调用所述接收地管理模块中的接收地列表与识别出的属地进行对比,确保接收地的名称 与属地保持一致,则允许数据分发至接收地。
[0030]本专利技术所述的一种数据智能识别分发系统,包括采集取证模块、属地识别模块、数据分 发模块、域名管理模块和接收地管理模块,所述采集取证模块的输出端与属地识别模块的输 入端通讯连接,所述属地识别模块的输出端与所述数据分发模块的输入端通讯连接,所述域 名管理模块的输出端与所述属地识别模块的输入端通讯连接,所述接收地管理模块的输出端 与所述数据分发模块的输入端通讯连接;
[0031]所述采集取证模块,用于对用户提交的数据进行采集取证;
[0032]所述属地识别模块,用于将采集到的数据进行分段和识别;
[0033]所述数据分发模块,用于将完成识别的数据分发给对应的接收地;
[0034]所述域名管理模块,用于提供域名的属地信息,并为所述属地识别模块的数据识别提供 数据支撑;
[0035]所述接收地管理模块,用于对所有的接收地进行管理,并根据所述数据分发模块的分发 任务提供数据支撑。
[0036]进一步地:所述采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单 元;所述采集单元用于对用户提交的数据进行采集,所述监控单元用于对所述采集模块的采 集过程进行监控,所述抽取单元用于对用户提交的数据进行抽取,所述截图单元用于对数据 页面进行截图,所述下载单元用于对抽取的数据进行下载;
[0037]所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;所述域名提取单 元用于对数据进行提取并将提取到的域名放入域名池中,所述策略管理单元用于设置阈值并 根据当前域名的总数据量与阈值的对比结果按预设规则调用所述属地识别单元,所述属地识 别单元用于根据提取到的域名获取敌营的属地信息;
[0038]所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和地域显示单 元;所述缓存管理单元用于识别当前缓存库中是否有与所述数据对应的地域信息,所述数据 库管理单元用于识别当前数据库中是否有与所述数据对应的地域信息,所述备案地查询单元 用于通过备案地查询网址进行识别与所述数据对应的地域信息,并将查询到的地域信息新建 至所述数据库和所述缓存库;
[0039]所述数据分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据智能识别分发执行方法,其特征在于,包括以下步骤:S1、采用采集取证模块对用户提交的数据进行采集;S2、将采集到的数据进行分段得到分段矩阵;S3、采用属地识别模块对分段矩阵进行识别;S4、将识别结果通过数据分发模块按照区域进行划分,得到识别结果矩阵;S5、根据识别结果矩阵中每列非零元素的个数自适应的开辟缓存空间,将数据分发至接收地管理模块。2.根据权利要求1所述的一种数据智能识别分发执行方法,其特征在于,所述采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单元;在S1中,具体包括以下步骤:S11、通过所述采集单元对用户提交的数据进行多进程采集取证,所述数据为URL数据;采用所述监控单元对采集过程进行实时监控;S12、利用所述截图单元对URL数据页面进行截图;S13、在采集过程中,采用所述抽取单元对用户提交的URL数据进行实时抽取,同时采用下载单元对抽取的数据进行下载。3.根据权利要求2所述的一种数据智能识别分发执行方法,其特征在于,在S1中,所述采集单元、截图单元和抽取单元均采用restful服务的方式。4.根据权利要求1或2所述的一种数据智能识别分发执行方法,其特征在于,所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;在S3中,具体包括以下步骤:S31、将分段矩阵传送至域名提取单元;S32、对分段矩阵中元素提取有效的数据,采用所述域名提取单元对数据按照粒度从细到粗的顺序进行提取,并将提取到的域名放入域名池中;S33、对域名池中的域名进行统计,通过所述策略管理单元设定阈值,如果用户上传的总数据量达到阈值,则批量调用所述属地识别单元,如果未达到阈值,则单个调用所述属地识别单元;S34、所述属地识别单元根据提取到的域名获取对应的属地信息。5.根据权利要求4所述的一种数据智能识别分发执行方法,其特征在于,所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和地域显示单元;在S32中,具体包括以下步骤:S321、调用所述缓存管理单元识别当前缓存库中是否有与所述数据对应的地域信息,若未发现地域信息,则调用所述数据库管理单元识别当前数据库中是否有与所述数据对应的地域信息;若仍未发现,则调用备案地查询单元通过备案地查询网站进行识别与所述数据对应的地域信息,并将查询到的地域信息新建至所述数据库和所述缓存库;S322、根据识别到的地域信息和用户手动新增的地域信息发送至所述地域显示单元显示,所述地域信息包括域名、属地和/或网站。6.根据权利要求1所述的一种数据智能识别分发执行方法,其特征在于,所述数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;在S4中,具体包括以下步骤:S41、所述分发单元对所述识别结果进行分发;S42、所述异常检测单元实时对分发过程进行检测,若检测到属地信息为空或属地不在
接收地列表中,则标...

【专利技术属性】
技术研发人员:王海洋张仰曼吴琼王丽萍周启荣柯枫隋明爽宋吉锋
申请(专利权)人:烟台中科网络技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1