一种政府办公文档多机检索方法及系统技术方案

技术编号:32356031 阅读:17 留言:0更新日期:2022-02-20 03:16
本发明专利技术实施例提供一种政府办公文档多机检索方法及系统,包括:当任一政府办公用户通过自己前端上传办公文档时将该办公文档保存在后台的原始文档库;读取所获取该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息;触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务;当任一政府办公用户在自己前端在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户。通过前端将文档上传到后台分析处理,搭建搜索引擎实现文件快速检索;构建文档共享数据库实现文档联机检索。库实现文档联机检索。库实现文档联机检索。

【技术实现步骤摘要】
一种政府办公文档多机检索方法及系统


[0001]本专利技术涉及政府办公文档处理领域,具体涉及一种政府办公文档多机检索方法及系统。

技术介绍

[0002]在政府日常办公中,会产生大量的公文文档,这些文档作为业务的数据信息积淀,经常面临查询调阅的情况。现有单机文档检索软件主要存在以下现状和问题:1.依靠文件名查询受到字符长度限制,可检索的信息量有限,且文档的内部文本信息无法查询;2.通过检索文档内部信息进行查询,虽然准确性高,但需要实时对系统所有文档文本进行解析提取,系统开销大,速度慢。3.政府业务系统内部文档管理检索也需要一个公共“资源池”,解决多用户之间文档共享共用,联机检索问题。

技术实现思路

[0003]本专利技术实施例提供一种政府办公文档多机检索方法及系统,通过前端用户将文档上传到后台分析处理,搭建搜索引擎实现文件快速检索;构建文档共享数据库实现文档联机检索;使得政府一个单位或一个部门能从较好地上传,共享,管理各终端繁多办公文档。
[0004]为达上述目的,一方面,本专利技术实施例提供一种政府办公文档多机检索方法,包括:
[0005]当任一政府办公用户通过自己前端上传办公文档时将该办公文档保存在后台的原始文档库;以及,将该办公文档的基本信息保存在在文档基本信息表内,将上传该办公文档的用户权限保存在用户权限表内;其中,文档基本信息表设于后台的关系型数据库内,所述用户权限表设于关系型数据库内;
[0006]自原始文档库读取所获取该办公文档的文本信息,对该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息,将该办公文档的关键信息保存到文档详细信息表内;其中,所述文档详细信息表设于后台的关系型数据库内;
[0007]在对预处理后的文本信息提取关键信息完毕后,触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务;
[0008]当任一政府办公用户在自己前端通过搜索引擎服务检索所需办公文档时,根据该政府办公用户在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户。
[0009]另一方面,本专利技术实施例提供一种政府办公文档多机检索方法,包括:
[0010]当任一政府办公用户通过自己前端上传办公文档时将该办公文档保存在后台的原始文档库;以及,将该办公文档的基本信息保存在在文档基本信息表内,将上传该办公文档的用户权限保存在用户权限表内;其中,文档基本信息表设于后台的关系型数据库内,所述用户权限表设于关系型数据库内;
[0011]自原始文档库读取所获取该办公文档的文本信息,对该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息,将该办公文档的关键信息保存到文档详细信息表内;其中,所述文档详细信息表设于后台的关系型数据库内;
[0012]在对预处理后的文本信息提取关键信息完毕后,触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务;
[0013]当任一政府办公用户在自己前端通过搜索引擎服务检索所需办公文档时,根据该政府办公用户在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户。
[0014]上述技术方案具有如下有益效果:本专利技术通过前端用户自定义权限,将文档上传到后台分析处理,减轻了终端计算机的检索开销,并通过搭建搜索引擎实现文件快速检索;构建文档共享数据库实现文档联机检索;使得政府一个单位或一个部门能从较好地上传,共享,管理各终端繁多办公文档,并为各终端用户提供一键快捷查询调阅服务。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术实施例的一种政府办公文档多机检索方法的流程图;
[0017]图2是本专利技术实施例的一种政府办公文档多机检索系统的流程图;
[0018]图3是本专利技术实施例数据库信息表结构图;
[0019]图4是本专利技术实施例流程实施图;
[0020]图5是本专利技术实施例文档分析处理实施图;
[0021]图6是本专利技术实施例系统前端设计图;
[0022]图7是本专利技术实施例系统部署示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]如图1所示,结合本专利技术的实施例,提供一种政府办公文档多机检索方法,包括:
[0025]S201:当任一政府办公用户通过自己前端上传办公文档时将该办公文档保存在后台的原始文档库;以及,将该办公文档的基本信息保存在在文档基本信息表内,将上传该办公文档的用户权限保存在用户权限表内;其中,文档基本信息表设于后台的关系型数据库内,所述用户权限表设于关系型数据库内;
[0026]S202:自原始文档库读取所获取该办公文档的文本信息,对该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息,将该办公文档的关键信息保存到文
档详细信息表内;其中,所述文档详细信息表设于后台的关系型数据库内;
[0027]S203:在对预处理后的文本信息提取关键信息完毕后,触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务;
[0028]S204:当任一政府办公用户在自己前端通过搜索引擎服务检索所需办公文档时,根据该政府办公用户在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户。
[0029]优选地,步骤202,具体包括:
[0030]S2021:采取逐段落遍历读取该办公文档各段落中的文本信息,或者采取逐单元格遍历读取表格中的文本信息;将每次读取的文本信息定义为P,将每个P以分隔符连接形成该办公文档的全文文本信息,将全文文本信息作为对该办公文本的文本信息的预处理结果;并将该办公文档的全文文本信息保存到文档详细信息表的全文文本字段内;
[0031]S2022:针对每个P,采用训练好的提取模型自该P的文本信息内抽取出关键信息,所述关键信息包括:主标题、一级标题、二级标题、三级标题、份号、密级和保密期限、紧急程度,并将该P的各关键信息分别存保存到文档详细信息表的对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政府办公文档多机检索方法,其特征在于,包括:当任一政府办公用户通过自己前端上传办公文档时将该办公文档保存在后台的原始文档库;以及,将该办公文档的基本信息保存在在文档基本信息表内,将上传该办公文档的用户权限保存在用户权限表内;其中,文档基本信息表设于后台的关系型数据库内,所述用户权限表设于关系型数据库内;自原始文档库读取所获取该办公文档的文本信息,对该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息,将该办公文档的关键信息保存到文档详细信息表内;其中,所述文档详细信息表设于后台的关系型数据库内;在对预处理后的文本信息提取关键信息完毕后,触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务;当任一政府办公用户在自己前端通过搜索引擎服务检索所需办公文档时,根据该政府办公用户在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户。2.根据权利要求1所述的政府办公文档多机检索方法,其特征在于,所述自原始文档库读取所获取该办公文档的文本信息,对该办公文档的文本信息进行预处理;对预处理后的文本信息提取关键信息,将该办公文档的关键信息保存到文档详细信息表内,具体包括:采取逐段落遍历读取该办公文档各段落中的文本信息,或者采取逐单元格遍历读取表格中的文本信息;将每次读取的文本信息定义为P,将每个P以分隔符连接形成该办公文档的全文文本信息,将全文文本信息作为对该办公文本的文本信息的预处理结果;并将该办公文档的全文文本信息保存到文档详细信息表的全文文本字段内;针对每个P,采用训练好的提取模型自该P的文本信息内抽取出关键信息,所述关键信息包括:主标题、一级标题、二级标题、三级标题、份号、密级和保密期限、紧急程度,并将该P的各关键信息分别存保存到文档详细信息表的对应字段内;其中,所述采用训练好的提取模型为算法抽取模型或者规则匹配模型;其中,主标题是指该P所属办公文档的标题;所述规则匹配模型包括:字体样式匹配和固定字符匹配,所述字体样式匹配是至少如下一种:每个P的字体大小、字体名称、字体颜色、是否加粗;固定字符匹配是指利用正则表达式,对关键信息中的固定字、符号、标点、编号进行匹配。3.根据权利要求2所述的政府办公文档多机检索方法,其特征在于,所述在对预处理后的文本信息提取关键信息完毕后,触发后台搜索框架的自动更新索引模式,自动更新索引模式构建该办公文档的索引,根据该办公文档的索引更新后台对办公文档的搜索引擎服务,具体包括:自文档详细信息表内获取该办公文档的全文文本信息和各关键信息;将该办公文档的全文文本信息、主标题、关键信息设置为索引,并根据主标题、其他各关键信息的重要程度为各关键信息分别设置相应的加强权重,通过该办公文档主标题、各关键信息匹配得分调整搜索的评分策略,通过索引和评分策略构建该用户所上传的办公文档相匹配的搜索引擎;将该用户所上传的办公文档相匹配的索引添加到后台对办公文档的索引内,形成更新后的后台对办公文档的搜索引擎服务;
所述政府办公文档多机检索方法,还包括:当该政府办公用户修改或删除已上传的办公文档时,触发后台搜索框架的自动更新索引模式,自动更新索引模式利用该办公文件的关键信息和分词结果自动更新相应的索引,根据更新的相应索引更新后台对办公文档的搜索引擎服务。4.根据权利要求3所述的政府办公文档多机检索方法,其特征在于,所述搜索引擎服务是指Whoosh搜索引擎;所述当任一政府办公用户在自己前端通过搜索引擎服务检索所需办公文档时,根据该政府办公用户在搜索引擎服务内的查询语句自所有后台的所有办公文档进行检索,将符合该政府办公用户权限、与查询语句相匹配的办公文档显示给该用户,具体包括:Whoosh搜索引擎通过分词工具对该政府办公用户所输入的查询语句进行分词;其中,将查询语句分词后,各分词以或的关系存在;Whoosh搜索引擎根据各分词与符合用户权限的各办公文档的索引匹配,将与索引匹配的办公文档作为办公文档初步检索结果;针对办公文档初步检索结果中的每个办公文档,将该办公文档的各关键信息在该办公文档中的加强权重值乘以各自相应的得分,得到各关键信息相应的加强权重得分;将各关键信息相应的加强权重得分加上该办公文档的Whoosh搜索引擎评分,得到该办公文档的评分;其中,该办公文档的各关键信息各自相应的得分是指Whoosh搜索引擎对个各关键信息的搜索评分;将评分满足预设值的所有办公文档显示给用户;所述将评分满足预设值的所有办公文档显示给用户,具体包括:将评分满足预设值的每个办公文档的显示信息分为两行显示,第一行为该办公文档的标题;第二行为针对该办公文件的全文文本信息进行检索的结果;以及通过高亮显示策略为每个办公文档的显示信息内的分词设定高亮显示,并设定自第一个高亮分词起算、向后的显示信息的字符数不大于预设字符数;所述将评分满足预设值的所有办公文档显示给用户,具体包括:以评分满足预设值的办公文档中的最高评分为基准,依次将评分满足预设值的其他办公文档的评分除以基准,得出其他办公文档相应的向后查找相对概率;将每个办公文档的向后查找相对概率以饼图形式显示在用户前端。5.根据权利要求4所述的政府办公文档多机检索方法,其特征在于,所述将评分满足预设值的所有办公文档显示给用户,具体包括:针对评分满足预设值的任一办公文档,当用户点击该办公文档用于预览按钮时,则会触发设置在预览按钮上的超链接,通过超链接所携带的标签函数自动捕获该办公文档编号,通过该办公文档编号自文档详细信息表查询到相应的预览文件存储地址返回前端;根据预览文件存储地址调取该办公文档相应的预览文件并实时显示;所述办公文档的预览文件存储在文件数据库的预览文件库;所述将评分满足预设值的所有办公文档显示给用户,具体包括:针对评分满足预设值的任一办公文档,当用户点击该办公文档用于打印或导出时,则会触发设置在相应按钮上的超链接,通过超链接所携带的标签函数自动捕获该办公文档编号,后台根据该文档编号在文档详细信息表查询出该办公文档的存储地址返回前端,根据
该办公文档的存储地址读取该办公文档的文件流,将该办公文档进行打印或导出到用户前端所在的本地计算机。6.根据权利要求4所述的政府办公文档多机检索方法,其特征在于,还包括:在对预处理后的文本信息提取关键信息完毕后,自文档详细信息表的全文文本字段内获取该办公文档的全文文本信息;使用分词工具对该全文文本信息进行分词,通过分词将所述全文文本信息分解成具有独立含义的词汇,且当存在专业词汇时保留相应的专业词汇;将分词保存在该办公文档在文档详细信息表的分词字段内;针对每个办公文档,将该办公文档的分词形成词袋数据结构,统计该办公文档的每个分词的词频;其中,所述词袋数据结构里的分词任意放置,分词的词频是指该分词在该办公文档的所有分词中出现的频率;将所有办公文档的各分词的词频形成一个词频矩阵;其中,将每个办公文档的词频分别作为该词频矩阵的一行,将该政府办公用户上传的办公文档作为第一行;分别计算词频矩阵内第一行与其他行每行之间的余弦距离得出该相应两篇办公文档的相似值;将每篇办公文档与其他办公文档的相似值存入文档相似性统计表;所述将评分满足预设值的所有办公文档显示给用户,具体包括:当点击任一评分满足预设分数的办公文档时,通过为该办公文档标题设置超链接内的标签函数自动捕获该办公文档编号,并在文档相似性统计表查找该办公文档的所有相似文档编号、与之相应的相似值;自文档详细信息表查找各相...

【专利技术属性】
技术研发人员:程世清王思宇曹林陈仁平
申请(专利权)人:中国人民解放军三一五一一部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1