本发明专利技术提供一种数据抽取方法,属于计算机技术领域,该方法包括:获取用户配置的抽取规则;将所述抽取规则转换成SQL查询语句;根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。另外,将抽取到的所述目标数据渲染到地图上,实现所述目标数据的可视化展示。本发明专利技术提供的数据抽取方法,通过将用户配置的抽取规则转换成结构化的SQL查询语句,避免了复杂的查询对象使用字符串格式组织,该方法灵活可配置,支持各个领域的抽取规则的定制,在全文搜索引擎中支持SQL查询语句,极大的方便了技术人员对全文搜索引擎中索引数据的检索,提高了开发效率,缩短了开发周期,降低了开发成本。
【技术实现步骤摘要】
数据抽取方法及基于地理信息的数据展示方法
本专利技术涉及计算机
,尤其涉及一种数据抽取方法及基于地理信息的数据展示方法。
技术介绍
在计算机
,数据抽取是各行各业定制化自身业务的重要手段,如何可视化抽取数据也是业务需求的重要内容。现有技术中的数据抽取方法,通常使用数据库模糊查询进行检索,当数据量增大时,检索速度越来越慢,而基于大数据搜索引擎进行数据抽取能极大提升数据抽取速度,现有方法中通常使用全文检索工具进行检索,将各种复杂的查询对象使用字符串格式组织,构建查询语句来抽取数据,以实现各业务需求。但是现有技术中的方法存在如下技术问题:一是组装复杂的字符串格式对象查询语句用于从全文检索工具中抽取数据,极大的限制了开发效率;二是每次数据传输到全文检索工具中需要额外的调用接口,耦合性太高;三是全文检索工具自带的分词器的分词粒度太粗,造成抽取的数据的准确度不高,四是抽取的数据多数用于列表和报告展示,缺少丰富的可视化图表和地理信息展示支撑。
技术实现思路
本专利技术的目的是提供一种数据抽取方法及基于地理信息的数据展示方法,解决了现有技术中的上述技术问题。为了解决上述技术问题,一方面,本专利技术提供一种数据抽取方法,包括:获取用户配置的抽取规则;将所述抽取规则转换成SQL查询语句;根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。另一方面,本专利技术提供一种基于地理信息的数据展示方法,包括:抽取目标数据,所述目标数据的抽取方法为上述的方法;将所述目标数据渲染到地图上,实现所述目标数据的可视化展示。再一方面,本专利技术提供一种数据抽取装置,包括:获取模块,用于获取用户配置的抽取规则;转换模块,用于将所述抽取规则转换成SQL查询语句;抽取模块,用于根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。又一方面,本专利技术提供一种基于地理信息的数据展示装置,包括:数据抽取模块,用于获取用户配置的抽取规则;将所述抽取规则转换成SQL查询语句;根据所述SQL查询语句,从全文搜索引擎中抽取目标数据;展示模块,用于将所述目标数据渲染到地图上,实现所述目标数据的可视化展示。又一方面,本专利技术提供一种数据库系统,包括数据库和数据抽取装置,其特征在于,所述数据抽取装置包括:获取模块,用于获取用户配置的抽取规则;转换模块,用于将所述抽取规则转换成SQL查询语句;抽取模块,用于根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。又一方面,本专利技术提供一种电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。又一方面,本专利技术提供一种用于基于地理信息的数据展示的电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。又一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。本专利技术提供的数据抽取方法,通过将用户配置的抽取规则转换成结构化的SQL查询语句,避免了复杂的查询对象使用字符串格式组织,该方法灵活可配置,支持各个领域的抽取规则的定制,在全文搜索引擎中支持SQL查询语句,极大的方便了技术人员对全文搜索引擎中索引数据的检索,提高了开发效率,缩短了开发周期,降低了开发成本。附图说明图1为依照本专利技术实施例的数据抽取方法示意图;图2为依照本专利技术实施例的数据抽取装置示意图;图3为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为了使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为依照本专利技术实施例的数据抽取方法示意图,如图1所示,本专利技术实施例提供一种数据抽取方法,包括:步骤S101、获取用户配置的抽取规则;步骤S102、将所述抽取规则转换成SQL查询语句;步骤S103、根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。具体的,首先,获取用户配置的抽取规则,通过提供可视化界面方式的自定义字段设置界面,用户根据需求设置相应抽取规则,抽取规则至少包含领域、关键词和关键词间的逻辑连接关系中的任一种,具体来说包括包含关键词设置、关键词之间的互斥、并存关联、领域所下辖的细分子领域关联等,之后把用户设置的规则数据存储到数据库。然后,把抽取规则转化成SQL查询语句。该步骤把非结构化的抽取规则数据转换成结构化的SQL查询语句,方便在全文搜索引擎中进行抽取数据。然后,把抽取规则转换成SQL查询语句时,并结合SQL插件进行数据抽取,极大的降低了组装查询对象字符串的复杂性。使用预设的分词器对所述SQL查询语句中包含的文本数据进行分词处理,获取若干个分词结果;另外,全文搜索引擎在创建索引时采用倒排索引结构,因此同步过来的数据需要进行分词处理。该分词器是根据目标数据库中数据的特点,进行优化的分词器,从而提高了分词的精度,增加数据抽取的准确度。将所述若干个分词结果输入至全文搜索引擎中,输出抽取到的目标数据。本实施例中的全文搜索引擎,可以根据实际情况来选择,可以使用第三方开源全文搜索引擎,也可以进行自行开发。在根据SQL查询语句,从全文搜索引擎中抽取目标数据之前,还需要实时监测目标数据库的存储状态。若判断获知所述目标数据库中的数据进行了更新,则将更新后的数据同步到所述全文搜索引擎中,以供所述全文搜索引擎更新索引。该目标数据库为关系型数据库,通过同步操作,能够快速的构建和更新索引,避免了在每次进行数据抽取时都需要通过额外的调用接口,降低了耦合性,从而提高了数据抽取的效率。本专利技术实施例提供的数据抽取方法,通过将用户配置的抽取规则转换成结构化的SQL查询语句,避免了复杂的查询对象使用字符串格式组织,该方法灵活可配置,支持各个领域的抽取规则的定制,在全文搜索引擎中支持SQL查询语句,极大的方便了技术人员对全文搜索引擎中索引数据的检索,提高了开发效率,缩短了开发周期,降低了开发成本。在上述实施例的基础上,进一步地,所述抽取规则至少包含领域、关键词和关键词间的逻辑连接关系中的任一种。具体的,获取用户配置的抽取规则时,通过提供可视化界面方式的自定义字段设置界面,用户根据需求设置相应抽取规则,抽取规则至少包含领域、关键词和关键词间的逻辑连接关系中的任一种,具体来说包括包含关键词设置、关键词之间的互斥、并存关联、领域所下辖的细分子领域关联等,之后把用户设置的规则数据存储到数据库。本专利技术实施例提供的数据抽取方法,通过将用户配置的抽取规则转换成结构化的SQL查询语句,避免了复杂的查询对象使用字符串格式组织,该方法灵活可配置,支持各个领域的抽取规则的定制,在全文搜索引擎中支持SQL查询语句,极大的方便了技术人员对全文搜索引擎中索引数据的检索,提高了开发效率,缩短了开发周期,降低了开发成本。在以上各实施例的基础上,进一步地,所述根据所述SQL查询语句,从全文搜索引擎中抽本文档来自技高网...
【技术保护点】
1.一种数据抽取方法,其特征在于,包括:获取用户配置的抽取规则;将所述抽取规则转换成SQL查询语句;根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。
【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:获取用户配置的抽取规则;将所述抽取规则转换成SQL查询语句;根据所述SQL查询语句,从全文搜索引擎中抽取目标数据。2.根据权利要求1所述的方法,其特征在于,所述抽取规则至少包含领域、关键词和关键词间的逻辑连接关系中的任一种。3.根据权利要求1所述的方法,其特征在于,所述根据所述SQL查询语句,从全文搜索引擎中抽取目标数据,具体包括:使用预设的分词器对所述SQL查询语句中包含的文本数据进行分词处理,获取若干个分词结果;将所述若干个分词结果输入至全文搜索引擎中,输出抽取到的目标数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述SQL查询语句,从全文搜索引擎中抽取目标数据之前,还包括:实时监测目标数据库的存储状态;若判断获知所述目标数据库中的数据进行了更新,则将更新后的数据同步到所述全文搜索引擎中,以供所述全文搜索引擎更新索引。5.一种基于地理信息的数据展示方法,其特征在于,包括:抽取目标数据,所述目标数据的抽取方法为权利要求1-4任一项所述的方法;将所述目标数据渲染到地图上,实现所述目标数据的可视化展示。6.一种数据抽取装置,其特征在于...
【专利技术属性】
技术研发人员:左琦,巫禄成,刘彤,郭燕燕,代宝乾,汪彤,周扬凡,谢昱姝,
申请(专利权)人:北京市计算中心,北京市劳动保护科学研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。