一种面向网络数据的专题文档快速识别系统技术方案

技术编号:13878423 阅读:71 留言:0更新日期:2016-10-22 18:28
本发明专利技术提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明专利技术主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明专利技术实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。

【技术实现步骤摘要】

本专利技术属于计算机应用和网络信息
,具体涉及一种面向网络数据的专题文档快速识别系统
技术介绍
随着互联网和手机的普及应用,网民产生的网络数据量正在飞速增长,论坛、博客、新闻以及社会媒体等信息内容无处不在。ZDNET2013年年度技术报告显示,2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。从海量的用户数据中寻找可用信息并非易事,社会媒体迅速、即时,给人们的生活带来便利的同时,也因其产生的速度远远地超越了人们的利用效率,从而使得人们从数据中难以即时地获取有效的信息。网络数据中事件的专题包括了现实社会中政治、经济、军事、金融、生活、娱乐等方方面面。例如,在政治方面,网络已成为反映社会舆情的主要载体之一,人们通过网络充分表达自己的情感,态度,观点,形成一股不容忽视的舆论力量,影响着社会关注点的变化与一些事件的发展动向,通过对网络数据进行分析,可以从中获取舆情信息。在其他方面,利用网络数据的时效性,可以监测特定的事件—地震,并利用时空信息发现震心;再例如,通过对网络信息中的某部电影的相关讨论或事件进行挖掘,可建立模型来预测票房。因此,对于海量数据快速识别出其所属的专题,具有重要现实意义。然而,现有的专题识别系统大多具有功能专一、通用性差、对业务变更适应性差、以及识别效率不高等不足。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种面向网络数据的专题文档快速识别方法及系统,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种面向网络数据的专题文档快速识别系统,包括文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块;其中,轮询监测模块通过所述实时服务接口与所述实时过滤处理模块连接,所述实时过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块通过所述历史服务接口与所述回溯过滤处理模块连接;所述回溯过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块用于分别向所述实时服务接口和所述历史服务接口分发事件规则;所述规则树构建模块用于接收来自所述轮询监测模块的事件规则,并根据所述事件规则构建支持动态热切换的双数组trie树;所述实时过滤处理模块用于通过所述文档获取模块获取实时文档数据,并对所述实时文档数据进行处理,转化为实时文档结构;然后,采用所述双数组trie树对所述实时文档结构进行扫描,识别出符合专题要求的实时文档,并将识别结果通过所述文档结果存储模块进行存储;所述回溯过滤处理模块用于通过所述文档获取模块获取历史文档数据,并对所述历史文档数据进行处理,转化为历史文档结构;然后,采用所述双数组trie树对所述历史文档结构进行扫描,识别出符合专题要求的历史文档,并将识别结果通过所述文档结果存储模块进行存储。优选的,所述轮询监测模块还用于:所述轮询监测模块在向所述实时服务接口和所述历史服务接口分发事件规则时,还同时接收所述实时服务接口和所述历史服务接口返回的心跳,从而检测与所述实时服务接口相连接的所述实时过滤处理模块的状态是否正常,如果异常,则通过所述实时服务接口重启所述实时过滤处理模块;还同时检测与所述历史服务接口相连接的所述回溯过滤处理模块的状态是否正常,如果异常,则通过所述历史服务接口重启所述回溯过滤处理模块。优选的,所述规则树构建模块具体用于:步骤A.2.1:当所述规则树构建模块获取到来自于所述轮询监测模块分发的事件规则时,所述规则树构建模块通过查看建树标志为真或假,从而判断是否有其他建树过程正在进行;步骤A.2.2:如果建树标志为真,表明存在其他建树过程,则使用全局的事件规则变量备份接收到的事件规则,并将所述事件规则写进相应的日志;随后等待1秒钟后,继续检查建树标志,直到不存在其他建树过程正在进行;如果建树标志为假,表明不存在其他建树过程,则使用所述事件规则建立双数组trie树,在建立双数组trie树的过程中时,一方面,锁定建树过程,直到建树完成后,释放该锁;另一方面,修改建树标志为真;其中,建立双数组trie树的过程是指:提取所述事件规则中的词集,建立双数组trie树,将局部智能指针指向新建的双数组trie树;然后,使用全局智能指针更新全局trie树,更新全局tire树的过程中对该过程加锁,更新之后释放锁,随后修改建树变量为假,表明本次建树过程结束;步骤A.2.3:查看备份事件规则是否为空,若为空,则结束,继续等待新的事件规则;若不为空,则返回步骤A.2.2。优选的,提取所述事件规则中的词集,建立双数组trie树,具体包含以下步骤:步骤A.2.2.1:所述事件规则包括有多个词集变量,遍历事件规则中的每一个词集变量,并判断词集变量集合是否存在遍历到的词集变量,如果不存在,则将遍历到的所述词集变量存放于所述词集变量集合;如果存在,则跳过;步骤A.2.2.2:所述事件规则包括有多个规则;遍历事件规则中的每一个规则,并判断规则集合之中是否存在遍历到的规则,如果不存在,则将遍历到的所述规则存放于所述规则集合;如果存在,则跳过;步骤A.2.2.3:利用规则解析算法遍历所述词集变量集合和所述规则集合,提取符合规则的词集;步骤A.2.2.4:利用所提取的词集构建双数组trie树。优选的,所述实时过滤处理模块具体用于:步骤B.1:所述实时过滤处理模块读取实时过滤处理配置文件,获取配置信息;步骤B.2:所述实时过滤处理模块根据配置信息获取实时文档所在的通道类型以及通道对应的线程数;然后,为每个通道开启相应的实时文档处理线程;对于每个所述实时文档处理线程,进行实时过滤处理的过程,包括:步骤B.2.1:所述实时文档处理线程通过输入模块读取若干个实时文档,并将若干个实时文档封装成文档结构;步骤B.2.2:所述实时文档处理线程组装文档:即:将文档结构按照域的顺序以特殊字符隔开,然后记录每个文档以及域的偏移量;步骤B.2.3:所述实时文档处理线程对所述组装文档采用所述双数组trie树进行规则匹配,识别出所述实时文档结构中满足专题需求的文档。优选的,步骤B.2.3包含以下几个步骤:步骤B.2.3.1:所述实时文档处理线程判断双数组trie树是否建立完毕;如果未完毕,则等待;如果完毕,执行步骤B.2.3.2;步骤B.2.3.2:所述实时文档处理线程获取组装好的所述组装文档,所述组装文档为长字符串结构;然后,采用所述双数组trie树扫描所述长字符串结构,进行关键词匹配,得到扫描结果;其中,采用所述双数组trie树扫描所述长字符串结构的过程需加锁;步骤B.2.3.3:规则解析,对扫描结果根据规则文法进行集合运算;步骤B.2.3.4,对步骤B.2.3.3的结果进行信息源范围的过滤,过滤掉不在事件规则要求的信息源范围,得到与所需专题相关的文档。优选的,所述回溯过滤处理模块具体用于:步骤C.1:所述回溯过滤处理模块读取回溯过滤处理配置文件,从回溯过滤处理配置文件中获取回溯时间间隔以及回溯延迟时间;步骤C.2:输入模块通过API从数据库中读取任务,每发现一条符合回溯条件的任务本文档来自技高网...

【技术保护点】
一种面向网络数据的专题文档快速识别系统,其特征在于,包括文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块;其中,轮询监测模块通过所述实时服务接口与所述实时过滤处理模块连接,所述实时过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块通过所述历史服务接口与所述回溯过滤处理模块连接;所述回溯过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块用于分别向所述实时服务接口和所述历史服务接口分发事件规则;所述规则树构建模块用于接收来自所述轮询监测模块的事件规则,并根据所述事件规则构建支持动态热切换的双数组trie树;所述实时过滤处理模块用于通过所述文档获取模块获取实时文档数据,并对所述实时文档数据进行处理,转化为实时文档结构;然后,采用所述双数组trie树对所述实时文档结构进行扫描,识别出符合专题要求的实时文档,并将识别结果通过所述文档结果存储模块进行存储;所述回溯过滤处理模块用于通过所述文档获取模块获取历史文档数据,并对所述历史文档数据进行处理,转化为历史文档结构;然后,采用所述双数组trie树对所述历史文档结构进行扫描,识别出符合专题要求的历史文档,并将识别结果通过所述文档结果存储模块进行存储。...

【技术特征摘要】
2015.03.16 CN 20151011436091.一种面向网络数据的专题文档快速识别系统,其特征在于,包括文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块;其中,轮询监测模块通过所述实时服务接口与所述实时过滤处理模块连接,所述实时过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块通过所述历史服务接口与所述回溯过滤处理模块连接;所述回溯过滤处理模块分别与所述文档获取模块和文档结果存储模块连接;所述轮询监测模块用于分别向所述实时服务接口和所述历史服务接口分发事件规则;所述规则树构建模块用于接收来自所述轮询监测模块的事件规则,并根据所述事件规则构建支持动态热切换的双数组trie树;所述实时过滤处理模块用于通过所述文档获取模块获取实时文档数据,并对所述实时文档数据进行处理,转化为实时文档结构;然后,采用所述双数组trie树对所述实时文档结构进行扫描,识别出符合专题要求的实时文档,并将识别结果通过所述文档结果存储模块进行存储;所述回溯过滤处理模块用于通过所述文档获取模块获取历史文档数据,并对所述历史文档数据进行处理,转化为历史文档结构;然后,采用所述双数组trie树对所述历史文档结构进行扫描,识别出符合专题要求的历史文档,并将识别结果通过所述文档结果存储模块进行存储。2.根据权利要求1所述的面向网络数据的专题文档快速识别系统,其特征在于,所述轮询监测模块还用于:所述轮询监测模块在向所述实时服务接口和所述历史服务接口分发事件规则时,还同时接收所述实时服务接口和所述历史服务接口返回的心跳,从而检测与所述实时服务接口相连接的所述实时过滤处理模块的状态是否正常,如果异常,则通过所述实时服务接口重启所述实时过滤处理模块;还同时检测与所述历史服务接口相连接的所述回溯过滤处理模块的状态是否正常,如果异常,则通过所述历史服务接口重启所述回溯过滤处理模块。3.根据权利要求1所述的面向网络数据的专题文档快速识别系统,其特征在于,所述规则树构建模块具体用于:步骤A.2.1:当所述规则树构建模块获取到来自于所述轮询监测模块分发的事件规则时,所述规则树构建模块通过查看建树标志为真或假,从而判断是否有其他建树过程正在进行;步骤A.2.2:如果建树标志为真,表明存在其他建树过程,则使用全局的事件规则变量备份接收到的事件规则,并将所述事件规则写进相应的日志;随后等待1秒钟后,继续检查建树标志,直到不存在其他建树过程正在进行;如果建树标志为假,表明不存在其他建树过程,则使用所述事件规则建立双数组trie树,在建立双数组trie树的过程中时,一方面,锁定建树过程,直到建树完成后,释放该锁;另一方面,修改建树标志为真;其中,建立双数组trie树的过程是指:提取所述事件规则中的词集,建立双数组trie树,将局部智能指针指向新建的双数组trie树;然后,使用全局智能指针更新全局trie树,更新全局tire树的过程中对该过程加锁,更新之后释放锁,随后修改建树变量为假,表明本次建树过程结束;步骤A.2.3:查看备份事件规则是否为空,若为空,则结束,继续等待新的事件规则;若不为空,则返回步骤A.2.2。4.根据权利要求3所述的面向网络数据的专题文档快速识别系统,其特征在于,提取所述事件规则中的词集,建立双数组trie树,具体包含以下步骤:步骤A.2.2.1:所述事件规则包括有多个词集变量,遍历事件规则中的每一个词集变量,并判断词集变量集合是否存在遍历到的词集变量,如果不存在,则将遍历到的所述词集变量存放于所述词集变量集合;如果存在,则跳过;步骤A.2.2.2:所述事件规则包括有多个规则;遍历事件规则中的每一个规则,并判断规则集合之中是否存在遍历到的规则,如果不存在,则将遍历到的所述规则存放于所述规则集合;如果存在,则跳过;步骤A.2.2.3:利用规则解析算法遍历所述词集变量集合和所述规则集合,提取符合规则的词集;步骤A.2.2.4:利用所提取的词集构建双数组trie树。5.根据权利要求1所述的面向网络数据的专题文档快速识别系统,其特征在于,所述实时过滤处理模块具体用于:步骤B.1:所述实时过滤处...

【专利技术属性】
技术研发人员:程工刘春阳庞琳王卿李雄张旭马宏远张丽毕明珠刘玮贺敏杨亚茹
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1