一种通用文档数据灵活检索系统及方法技术方案

技术编号:32431766 阅读:11 留言:0更新日期:2022-02-24 18:46
本发明专利技术公开了一种通用文档数据灵活检索系统及方法,包括数据层(1)、应用层(2)和展现层(3)。应用层(2)具有文件上传模块(21)、解析规则模块(22)、任务管理模块(23),标签配置模块(24)和关联权重模块(25),使得本发明专利技术具有可对任意文档文件进行检索、灵活定义检索规则及输出结果、实现输入一个或多个关键词从各类型文档中检索结果、同时基于解析规则获取的关键实体与定义的关联权重实现文档关联拓展,进一步发现相关文档中隐含的价值信息等优点。步发现相关文档中隐含的价值信息等优点。步发现相关文档中隐含的价值信息等优点。

【技术实现步骤摘要】
一种通用文档数据灵活检索系统及方法


[0001]本专利技术涉及一种数据检索的关联分析,尤其是一种通用文档数据灵活检索关联分析,属于检索分析领域。

技术介绍

[0002]随着人类社会科学技术的不断进步,互联网技术、计算机技术的快速发展,在各个行业、政府部门都建立了多个业务系统,这些业务系统产生了大量、多种类的文档数据。如何能够依据不同的需求对这些数据进行灵活、快速的处理、检索,发现文档数据之间的隐性价值关系,是当前急需解决的问题。
[0003]为了解决这些问题,当前市面上出现了多种文档数据检索系统,比如文档名称检索、文档内容检索等,但其主要原理是对单个文件按标题或内容进行精确或模糊检索;对于这类数据检索工具,由于检索的数据只能基于单个文档(检索效率低)且数据检索维度单一(检索不灵活),在检索过程中不对相关文档进行处理,难以发现相关文档中的隐含价值信息,导致检索后信息不全,难以获得更好的检索体验。
[0004]此外,传统的检索方式对于检索结果只能查看详情,不能对其内容深层次分析,因此这类文档数据检索系统具有检索效率低、操作不灵活、数据分析层次不深入等问题;
[0005]由于上述问题的存在,本专利技术人对现有文档检索软件的检索技术进行深入研究和分析,以期待研制出可以可对任意文件进行检索、灵活定义检索规则及输出结果、实现输入一个或多个关键词从各类型文档中检索结果、同时基于解析规则获取的关键实体与定义的关联权重实现文档关联拓展,进一步发现相关文档中隐含的价值的通用文档数据灵活检索系统及方法。

技术实现思路

[0006]为了克服上述问题,本专利技术人进行了锐意研究,一方面,设计出一种通用文档数据灵活检索系统,包括数据层1、应用层2和展现层3,
[0007]所述数据层1存储文件索引信息和配置信息;
[0008]所述应用层2对文件进行检索;
[0009]所述展现层3对检索结果进行展示。
[0010]进一步地,所述数据层1包括文档索引库11和系统配置数据库12,
[0011]所述文档索引库11存储文件索引信息,所述文件索引信息包括文件名称、文件内容、规则实体、文件类型;
[0012]所述系统配置数据库12存储系统产生的配置数据,包括任务信息表121、标签信息表122和解析规则表123;
[0013]所述应用层2具有文件上传模块21、解析规则模块22和任务管理模块23,
[0014]所述文件上传模块21,将文件上传存储至服务器中,并将上传文件的信息传递到任务管理模块23,
[0015]所述解析规则模块22,配置解析规则信息,并将解析规则信息存储至解析规则表123,供任务管理模块23获取,
[0016]所述任务管理模块23,接收文件上传模块21传递的文件信息,按照任务信息表121中的任务执行规则对上传至服务器的文件进行任务处理获得任务信息,将任务信息传递至任务信息表121,由任务信息表121进行存储。
[0017]在一个优选的实施方式中,所述文件索引信息包括文件标签,所述应用层2具有标签配置模块24。
[0018]根据本专利技术,所述任务信息表121存储上传文件的任务信息,所述所述上传文件的任务信息表包括文件类型、文件大小、文件存储路径、任务状态、任务执行规则,
[0019]所述标签信息表122存储上传文件处理中使用的标签信息,所述标签信息包括标签ID、标签名称、标签描述;
[0020]所述解析规则表123存储上传文件处理中使用的解析规则信息,所述解析规则表123包括规则ID、规则名称、规则描述、规则表达式。
[0021]优选地,所述标签信息包括上级标签ID。
[0022]根据本专利技术一个优选的实施方式,所述系统配置数据库12包括关联权重表124,所述关联权重表124存储关联分析使用的关联权重规则信息,所述关联权重规则信息用以描述不同文档之间的关联度;
[0023]所述应用层2具有关联权重模块25。
[0024]在一种优选的实施方式中,所述展现层3具有文档灵活检索模块31、文档标签检索模块32,
[0025]所述文档灵活检索模块31,基于索引信息灵活定义组合检索规则,进行检索,将检索结果进行显示,
[0026]所述文档标签检索模块32,基于索引信息中的文件标签进行分类检索,将检索结果进行显示。
[0027]进一步地,展现层3具有文档关联分析模块33,获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库11中提取检索结果涉及的文件索引信息,进行展示。
[0028]另一方面,本专利技术还提供了一种通用文档数据灵活检索方法,包括以下步骤:
[0029]S1、对文件进行上传,并根据任务执行规则对上传的文件进行处理,获得任务信息;
[0030]S2、设置配置解析规则信息、标签分析配置信息和关联权重信息;
[0031]S3、进行文件任务处理,生成文件索引信息;
[0032]S4、进行文档灵活检索或文档标签检索。
[0033]在一个优选的实施方式中,在步骤S4后具有步骤S5、进行文档关联分析:获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库中提取相关文件索引信息,进行展示。
[0034]本专利技术提供的一种通用文档数据灵活检索系统及方法的有益效果在于:
[0035]第一、本专利技术通过文件上传模块可以对业务中涉及的各类文档进行上传,使得本专利技术不拘泥于单一文件类型,可以对不同的文件进行处理,可以对处理后的文档索引库按照不同规则进行检索;
[0036]第二、本专利技术通过文档标签检索模块模块可以根据业务定义的不同标签进行分别检索,满足业务文件种类检索多样化需求,提高了该系统的实用性;
[0037]第三、本专利技术通过文件灵活检索模块可以实现基于文件名称、内容、类型、索引时间等进行灵活定义组合检索规则进行精确检索或模糊检索,快速帮助用户从海量文档中命中需要的结果,提供了业务人员工作效率。
[0038]第四、本专利技术通过文档关联分析模块可以在文档标签检索或文档灵活检索结果数据的基础上基于索引库中存储的文档规则实体进行权重分析后关联相关文档,分析检索结果数据相关的文档或者热点实体,对相关文档按照相关度高低取前十进行列表展示,对热点实体按照权重高低进行词云展示,点击词云中单个词组可以进行检索包含该词的文档,进一步扩大数据关联范围,层层深入实现数据的深层次关联分析,发现相关文档数据中隐含的价值信息,便于业务人员进行深度数据分析和数据挖掘工作。
附图说明
[0039]图1示出根据本专利技术一种优选实施方式的通用文档数据灵活检索系统的结构示意图;
[0040]图2示出根据本专利技术一种优选实施方式的通用文档数据灵活检索系统的系统配置库的数据表示意图;
[0041]图3示出根据本专利技术一种优选实施方式的通用文档数据灵活检索方法流程图;
[0042]图4示出根据本专利技术一种优选实施方式的通用文档数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用文档数据灵活检索系统,包括数据层(1)、应用层(2)和展现层(3),所述数据层(1)存储文件索引信息和配置信息;所述应用层(2)对文件进行检索;所述展现层(3)对检索结果进行展示。2.根据权利要求1所述的系统,其特征在于,所述数据层(1)包括文档索引库(11)和系统配置数据库(12),所述文档索引库(11)存储文件索引信息,所述文件索引信息包括文件名称、文件内容、规则实体、文件类型;所述系统配置数据库(12)存储系统产生的配置数据,包括任务信息表(121)、标签信息表(122)和解析规则表(123);所述任务信息表(121)存储上传文件的任务信息,所述所述上传文件的任务信息表包括文件类型、文件大小、文件存储路径、任务状态、任务执行规则;所述标签信息表(122)存储上传文件处理中使用的标签信息,所述标签信息包括标签ID、标签名称、标签描述;所述解析规则表(123)存储上传文件处理中使用的解析规则信息,所述解析规则表(123)包括规则ID、规则名称、规则描述、规则表达式。3.根据权利要求2所述的系统,其特征在于,所述应用层(2)具有文件上传模块(21)、解析规则模块(22)和任务管理模块(23),所述文件上传模块(21),将文件上传存储至服务器中,并将上传文件的信息传递到任务管理模块(23),所述解析规则模块(22),配置解析规则信息,并将解析规则信息存储至解析规则表(123),供任务管理模块(23)获取,所述任务管理模块(23),接收文件上传模块(21)传递的文件信息,按照任务信息表(121)中的任务执行规则对上传至服务器的文件进行任务处理获得任务信息,将任务信息传递至任务信息表(121),由任务信息表(121)进...

【专利技术属性】
技术研发人员:尚林林
申请(专利权)人:北京宸瑞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1