一种文档的结构化拆分方法,装置及系统制造方法及图纸

技术编号:16644802 阅读:35 留言:0更新日期:2017-11-26 17:16
本申请实施例公开了一种文档的结构化拆分方法,装置及系统,所述方法在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。

Method, device and system for structured resolution of document

The embodiment of the invention discloses a method for resolving structured document, device and system, the method selects the target paragraph in the whole document, the target attribute conforms to the paragraph as paragraph attribute rule passages; the target passages and the target passages corresponding knowledge one by one relationship, at this time. The target and target the corresponding paragraph paragraph knowledge to form a knowledge item, and then the whole document is split into a plurality of knowledge items. The search system in search of useful knowledge, application server platform only on the knowledge item analysis, screening out the useful knowledge, narrowing the search range search system, and shorten the search time, improve the system bandwidth utilization rate of resources, database etc..

【技术实现步骤摘要】
一种文档的结构化拆分方法,装置及系统
本申请实施例涉及文件搜索系统
,特别涉及一种文档的结构化拆分方法,装置及系统。
技术介绍
随着互联网技术的发展,基于互联网的搜索系统也越来越多。典型的基于互联网的搜索系统如图1所示,这个系统一般有一个应用平台服务器1,以及与其连接的数据存储服务器2,该数据存储服务器2设置在平台服务器1内部或独立设置,以及,与应用平台服务器1通过互联网3或移动互联网3连接的终端4,通常,应用平台服务器1为终端4提供应用服务。信息搜索系统就是一个示例性的基于互联网的搜索系统。通常,用户在终端中输入想要了解的信息的“搜索词”,应用平台服务器1基于该“搜索词”,遍历所述存储服务器2中的文档,搜索出与所述“搜索词”相关联的有用知识,并将相关信息,发送至终端4进行显示。但是,申请人发现现有技术提供的搜索系统在提供搜索有用知识的过程中存在搜索操作效率低以及搜索操作过多占用系统资源的问题。例如,用户想搜索“美食”相关的有用知识,此时,应用平台服务器1在遍历所述整篇word文档,搜索出与“美食”相关的有用知识。通常,整篇word文档是一个比较大的知识,应用平台服务器1在遍历本文档来自技高网...
一种文档的结构化拆分方法,装置及系统

【技术保护点】
一种文档的结构化拆分方法,其特征在于,包括:选取标题模板,确定所述标题模板的属性规则;根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联;根据所述关联,拆分所述文档。

【技术特征摘要】
1.一种文档的结构化拆分方法,其特征在于,包括:选取标题模板,确定所述标题模板的属性规则;根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联;根据所述关联,拆分所述文档。2.根据权利要求1所述的方法,其特征在于,所述选取标题模板,确定所述标题模板的属性规则的步骤之前所述方法还包括:获取模板文件;确定所述模板文件中的目标标题;筛选出所述目标标题的同级标题;根据所述同级标题的段落属性,生成标题模板。3.根据权利要求2所述的方法,其特征在于,所述根据同级标题的段落属性,生成标题模板的步骤包括:显示所述同级标题,以及,所述同级标题对应的知识;判断所述同级标题对应的知识是否符合预置划分规则;如果所述同级标题对应的知识符合预置划分规则,根据所述同级标题的段落属性,生成标题模板;如果所述同级标题对应的知识不符合预置划分规则,调取所述同级标题的子标题;根据所述同级标题的段落属性,以及,所述子级标题的段落属性,生成属性模板根据所述同级标题的段落属性,以及,所述子级标题的段落属性,生成属性模板,所述属性模板包括:根据同级标题的段落属性生成的同级标题模板,以及,根据所述子标题的段落属性生成的子级标题模板。4.根据权利要求1所述的方法,其特征在于,遍历所述文档的段落,筛选出目标段落的步骤包括:遍历所述文档的段落,筛选出目标段落;如果出现多于一个的目标段落,则增加一个正则表达式;判断所述目标段落的内容是符合正则表达式;如果所述目标段落的内容符合正则表达式,则保留所述目标段落;如果所述目标段落的内容不符合正则表达式,则删除所述目标段落。5.根据权利要求1所述的方法,其特征在于,所述将目标段落与所述目标段落对应的知识逐一建立关联的步骤包括;显示所述目标段落,以及,所述目标段落对应的知识;判断所述目标段落对应的知识是否为有用知识;如果所述目标段落对应的知识为有用知识,建立所述目标段落与所述目标段落对应的知识之间的关联;如果所述目标段落对应的知识不是有用知识,删除所述目标段落,以及,所...

【专利技术属性】
技术研发人员:房平会李德彦
申请(专利权)人:北京神州泰岳软件股份有限公司中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1