一种快速检索SVN文档库的方法及系统技术方案

技术编号:30310549 阅读:13 留言:0更新日期:2021-10-09 22:52
本发明专利技术提供一种快速检索SVN文档库的方法及系统,其中所述方法包括:接收用户输入的关键词集合;对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章;其中,文字信息包括:题目文字信息及内容文字信息。本发明专利技术采用远程检索SVN文档库的实现方式,无需将SVN库上海量的文档对象同步到本地服务器,节省存储空间。远程检索SVN文档库的实现方式,无需将SVN库上海量的文档对象同步到本地服务器,减少了海量文档同步的时间;同时,检索的过程是优先根据文件名进行关键字的过滤,再进行文件内容的关键字检查,避免对全量的文档进行内容检索,提高检索效率。检索效率。检索效率。

【技术实现步骤摘要】
一种快速检索SVN文档库的方法及系统


[0001]本专利技术涉及信息处理
,特别是涉及一种快速检索SVN文档库的方法及系统。

技术介绍

[0002]SVN(subversion)是一个开放源代码的版本控制系统。在软件研发领域,通常用来存放应用源代码、文档库等资源文件,实现团队协同开发。目前SVN对于资源文件管理的工作原理是,资源文件存储在SVN服务器上,开发者需要对资源文件进行变更时,通常是需要安装SVN客户端,通过SVN客户端提供的资源文件目录浏览功能,将目标资源文件通过SVN客户端检出到开发者所在的客户端机器上,然后对目标资源文件进行变更,再通过SVN客户端将变更后的资源文件提交到SVN服务器,从而完成对目标资源文件的变更和管理。
[0003]现有SVN对于资源文件的管理,如果SVN服务器上存储的资源文件数量不多,或者开发者很明确的知道需要变更的资源文件,是能够快速完成的。但是现有的SVN服务器一般存储的资源文件都是海量的,而且开发者要变更的资源文件也不确定,如需要根据审计的要求查询含有某些关键字的文档,或查询文档内容是否含有关键字,目前的解决方式一般是把SVN上全量的资源文件同步到开发者本地,进行本地化检索,通过搜索工具搜索关键字过滤出符合条件的文件名。这种方式存在以下的缺点:
[0004]1、存储消耗大:
[0005]SVN服务器的资源文件数量多,对存储的要求比较大。而且一般情况下开发者本地机器的磁盘存储不是很大,无法一次性存储SVN服务器上海量的资源文件。
[0006]2、检索时间较长、效率低下:
[0007]在开发者本地服务器上进行本地化检索,需要把目标文件同步到本地服务器。而SVN服务器上的资源文件,通过SVN客户端同步到开发者本地机器,同步的过程耗费的时间比较长。对于有多个SVN库的情况,需要逐个SVN库进行关键字的搜索。特别地,如果是对文档内容进行关键字检索,这种方式是对全量文档内容进行检索,效率十分低下。因此对SVN资源文件检索的整体时间较长,效率低下。
[0008]3、自动化程度低:
[0009]资源文件的检索过程,需要人工通过SVN客户端进行同步,然后手工操作搜索工具,输入关键字进行本地化检索。整个过程自动化程度较低。

技术实现思路

[0010]本专利技术提供一种快速检索SVN文档库的方法及系统,解决现有技术的SVN检索内存消耗较大、检索时间较长及自动化程度较低的问题。
[0011]本专利技术一个实施例提供一种快速检索SVN文档库的方法,包括:
[0012]接收用户输入的关键词集合;其中,所述关键词集合至少包含一个关键词;
[0013]对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述
关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章;其中,文字信息包括:题目文字信息及内容文字信息。
[0014]进一步地,所述对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章,包括:
[0015]获取SVN文档库中文章标题的题目文字信息,对所述题目文字信息进行分词,得到题目词语集合;
[0016]筛选所述关键词集合与所述题目词语集合的交集中词语的个数满足预设值的文章;
[0017]将所述文章进行本地存储。
[0018]进一步地,所述将所述文章进行本地存储之后,包括:
[0019]获取本地存储的文章的内容文字信息,对所述内容文字信息进行分词,得到内容词语集合;
[0020]筛选所述关键词集合与所述内容词语集合的交集中词语的个数满足预设值的文章。
[0021]进一步地,所述获取本地存储的文章的内容文字信息,包括:
[0022]通过开源的POI框架对Office文档类文章进行内容解析,通过纯Java类库对文本类文章进行内容解析。
[0023]进一步地,所述对获取到的SVN文档库中文章的文字信息进行分词之前,还包括:
[0024]根据SVN库的URL地址、访问用户名和密码参数,基于SVN提供的Java类库SVNKit对SVN库远程检索。
[0025]本专利技术一个实施例提供一种快速检索SVN文档库的系统,包括:
[0026]关键词集合获取模块,用于接收用户输入的关键词集合;其中,所述关键词集合至少包含一个关键词;
[0027]目标文章筛选模块,用于对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章;其中,文字信息包括:题目文字信息及内容文字信息。
[0028]进一步地,所述目标文章筛选模块,包括:
[0029]题目文字信息获取子模块,用于获取SVN文档库中文章标题的题目文字信息,对所述题目文字信息进行分词,得到题目词语集合;
[0030]文章初筛选子模块,用于筛选所述关键词集合与所述题目词语集合的交集中词语的个数满足预设值的文章;
[0031]本地存储文章子模块,用于将所述文章进行本地存储。
[0032]进一步地,所述目标文章筛选模块,还包括:
[0033]内容文字信息获取子模块,用于获取本地存储的文章的内容文字信息,对所述内容文字信息进行分词,得到内容词语集合;
[0034]文章终筛选子模块,用于筛选所述关键词集合与所述内容词语集合的交集中词语的个数满足预设值的文章。
[0035]进一步地,所述内容文字信息获取子模块,还用于:通过开源的POI框架对Office
文档类文章进行内容解析,通过纯Java类库对文本类文章进行内容解析。
[0036]进一步地,所述的一种快速检索SVN文档库的系统,还包括:
[0037]远程访问模块,用于根据SVN库的URL地址、访问用户名和密码参数,基于SVN提供的Java类库SVNKit对SVN库远程检索。
[0038]与现有技术相比,本专利技术实施例的有益效果在于:
[0039]本专利技术提供一种快速检索SVN文档库的方法及系统,其中所述方法包括:接收用户输入的关键词集合;其中,所述关键词集合至少包含一个关键词;对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章;其中,文字信息包括:题目文字信息及内容文字信息。本专利技术采用远程检索SVN文档库的实现方式,基于SVN提供的Java类库SVNKit实现对SVN库的远程检索,无需将SVN库上海量的文档对象同步到本地服务器,能大大节省存储空间。本专利技术采用远程检索SVN文档库的实现方式,无需将SVN库上海量的文档对象同步到本地服务器,减少了海量文档同步的时间。同时,检索的过程是优先根据文件名进行关键字的过滤,再进行文件内容的关键字检查,避免对全量的文档进行内容检索。因此检索速度快、效率高。本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种快速检索SVN文档库的方法,其特征在于,包括:接收用户输入的关键词集合;其中,所述关键词集合至少包含一个关键词;对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章;其中,文字信息包括:题目文字信息及内容文字信息。2.如权利要求1所述的一种快速检索SVN文档库的方法,其特征在于,所述对获取到的SVN文档库中文章的文字信息进行分词,得到文章词语集合,筛选所述关键词集合与所述文章词语集合的交集中词语的个数满足预设值的文章,包括:获取SVN文档库中文章标题的题目文字信息,对所述题目文字信息进行分词,得到题目词语集合;筛选所述关键词集合与所述题目词语集合的交集中词语的个数满足预设值的文章;将所述文章进行本地存储。3.如权利要求2所述的一种快速检索SVN文档库的方法,其特征在于,所述将所述文章进行本地存储之后,包括:获取本地存储的文章的内容文字信息,对所述内容文字信息进行分词,得到内容词语集合;筛选所述关键词集合与所述内容词语集合的交集中词语的个数满足预设值的文章。4.如权利要求3所述的一种快速检索SVN文档库的方法,其特征在于,所述获取本地存储的文章的内容文字信息,包括:通过开源的POI框架对Office文档类文章进行内容解析,通过纯Java类库对文本类文章进行内容解析。5.如权利要求1所述的一种快速检索SVN文档库的方法,其特征在于,所述对获取到的SVN文档库中文章的文字信息进行分词之前,还包括:根据SVN库的URL地址、访问用户名和密码参数,基于SVN提供的Java类库SVNKit对SVN库远程检索。6.一种快速...

【专利技术属性】
技术研发人员:魏桂明霍铭祥杨英炯赵宏鑫许卓怀
申请(专利权)人:广发银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1