一种基于海量数据的位置信息提取方法和装置制造方法及图纸

技术编号:19098614 阅读:27 留言:0更新日期:2018-10-03 02:40
本发明专利技术公开了一种基于海量数据的位置信息提取方法和装置。本发明专利技术的提取方法为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据所述User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储。本发明专利技术便于民警对网民、网站行为进行监督和规范。

【技术实现步骤摘要】
一种基于海量数据的位置信息提取方法和装置
:本专利技术涉及网络安全及大数据处理领域,尤其涉及一种基于海量数据的位置信息提取方法和装置。
技术介绍
:互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过PB级。LBS(LocationBasedServices):又称基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部DXXW方式(如GPS)及其他DXXW手段获取移动终端用户的位置信息(地理坐标,或大地坐标),在GIS(GeographicInformationSystem,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。基于LBS的服务业务在大数据处理得到了蓬勃地发展,各种开放式API得到了广泛的使用。如Google,就为用户提供了开放式的API服务。注册用户可以根据不同的需要来使用对应的服务,如通过IP查寻经纬度、通过WIFIMAC地址查寻、通过手机基站信息查寻地址、通过经纬度查寻地址、通过地址查寻经纬度等服务。同时,各个行业的基于LBS的业务也在蓬勃开展。在进行海量数据处理,尤其是在海量数据中提取位置信息,目前进行全文检索提取相关数据信息的算法一般是采用各种分词技术,然而传统的全文检索方法缓慢、效率低下。
技术实现思路
:本专利技术提供一种基于海量数据的位置信息提取方法和装置,便于民警对网民、网站行为进行监督和规范。第一方面,本专利技术实施例提供了一种基于海量数据的位置信息提取方法,包括:从全文数据库系统TRS中提取原始数据。从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取需要的应用信息。根据所述应用信息中的URL信息,按照自定义正则表达式,计算出提取规则编号。在预先设定的规则数据库中提取与计算所得编号对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。将所述有效数据输出到业务数据库和/或bcp文件。第二方面,本专利技术实施例还提供了一种基于海量数据的位置信息提取装置,其特征在于,包括:原始数据提取模块,用于从全文数据库系统TRS中提取原始数据;应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据;有效数据输出模块,用于将所述有效数据输出到业务数据库和/或bcp文件。与现有技术相比,本专利技术的积极效果为:本专利技术通过从全文数据库系统TRS中提取原始数据,并根据从提取的原始数据中提取的应用信息,在预先设定的规则数据库中提取与所述应用信息对应的提取规则,使用所述提取规则从所述原始数据中提取位置信息,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的、较精确提取位置信息的效果,告别了以往提取位置信息耗时长,且计算得出位置不准确的局面。本专利技术具有定位效率更高、位置更为精确的特点。数据处理方面,对由提取得到的位置数据,根据规则计算出编号并选择,在对应的行为数据库中进行匹配。例如,进行计算后得到编号“XXX”,则在对应的行为数据库中查询找到编号为“XXX”的记录,并读取出对应的提取规则字段,字段内容为一个正则表达式“x=a?y”。根据得到的正则表达式,计算出对应的位置信息。如果得到的提取规则为空,则得到的该条记录无效。附图说明:图1为本专利技术实施例一提供的一种基于海量数据的位置信息提取方法的流程图;图2为本专利技术实施例二提供的一种基于海量数据的位置信息提取方法的流程图;图3为本专利技术实施例二提供的一种基于海量数据的位置信息提取方法的算法流程图;图4为本专利技术实施例二提供的根据在预先设定的规则数据库中提取的与应用信息对应的提取规则,从原始数据中提取位置信息的算法流程图;图5为本专利技术实施例三提供的数据库管理示意图;图6为本专利技术实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图;图7为本专利技术实施例四提供的基于海量数据的位置信息提取装置的整体数据流示意图。具体实现方式:下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种基于海量数据的位置信息提取方法的流程图,该方法可以由基于海量数据的位置信息提取装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于WEB服务器中,或作为WEB服务器端的子程序,具体包括如下操作:110、从全文数据库系统TRS中提取原始数据;其中,TRS是一个面向文本数据的数据库管理系统,广泛应用于各种信息数据库、信息门户的建设,能够对异构海量数据统一管理,同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型)。从全文数据库系统TRS中提取原始数据,例如,从TRS提取并计算出来所需数据。120、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息进行计算并判断;其中,原始数据中的公共字段包括:数据ID,设备ID,目的端口,时间戳等。本专利技术实施例对原始数据中的公共字段不作处理,仅将其中的公共字段进行提取。User-Agent是Http协议中的一部分,属于头域的组成部分,能够提供用户所使用的浏览器类型、操作系统、浏览器内核等信息的标识。从所述User-Agent内容中提取应用信息,例如比QQ、MSN等应用等,并根据版本对提取的应用信息进行区分。130、根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;其中,预先设定的规则数据库中存储有位置信息的BXXH、JXXD、WXXD等字段,从预先设定的规则数据库提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。140、将所述位置信息与所述公共字段合并为有效数据;有效数据包括两部分:操作120中提取的公共字段和操作130中提取的位置信息。例如数组a[2][2],a[0][0]={abc,bj1},a[0][1]={abc,bj2}.150、将所述有效数据输出到业务数据库和/或bcp文件。将操作140中获取的有效数据输出到业务数据库以供相应业务系统使用。由于不同业务系统之间是相互独立的,不同业务系统的数据库之间不能共享,因此,将有效数据输入bcp文件保存,以供不同业务系统使用。本实施例的技术方案,通过从全文数据库系统TRS中提取原始数据,从提取的原始数据中提取公共字段和应用信息,根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,与所述公共字段合本文档来自技高网...

【技术保护点】
1.一种基于海量数据的位置信息提取方法,其步骤为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据所述User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储。

【技术特征摘要】
1.一种基于海量数据的位置信息提取方法,其步骤为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User-Agent内容;2)根据所述User-Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储。2.如权利要求1所述的方法,其特征在于,根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。3.如权利要求2所述的方法,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。4.如权利要求1或2或3所述的方法,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,使用公知通用规则从所述原始数据中提取位置信息。5.如权利要求1或2或3所述的方法,其特征在于,将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。6.一种基于海量数据的位置信息提取装置,其特征在于,包括原始数据提取模块...

【专利技术属性】
技术研发人员:兰烨刘立兰王涛刘卓王海磊王正伟王会娟田川焦林
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1