文档结构化方法和装置制造方法及图纸

技术编号:17854555 阅读:62 留言:0更新日期:2018-05-04 23:11
本发明专利技术提供一种文档结构化方法和装置,其中方法包括:创建Schema文件和结构化规则文件;根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取结构化后的文档中预设的标志性标签的位置;根据标志性标签的位置获取结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,从而提高了文档结构化的效率,降低了文档结构化的出错率。

Document structured methods and devices

The invention provides a document structured method and device, which includes: creating Schema files and structured rule files, structuring the document based on structured rule files and Schema files, and obtaining structured documents. The structured documents include structured content and unstructured irregularity in the structured document. Content; get the location of the preset tag in the structured document; obtain the irregular content in the structured document based on the location of the label label; structured the irregular content based on the preset special style or paragraph position advantage, and get the structured document, thus improving the structure of the document. The efficiency reduces the error rate of structured documents.

【技术实现步骤摘要】
文档结构化方法和装置
本专利技术涉及计算机
,尤其涉及一种文档结构化方法和装置。
技术介绍
现有技术中,在印刷排版行业中,出版社收到大量来稿时,由于来稿的格式不统一,出版社需要采用规则对来稿进行结构化,然后对来稿中不能采用规则进行结构化的无规则内容,例如中英文标题、中英文作者及作者单位的格式进行整理,得到结构化文档,然后根据结构化文档来制作图书或者期刊。然而现有技术中,出版社通过投入大量的人力来人工整理无规则内容的格式,导致文档结构化的效率低,出错率高。
技术实现思路
本专利技术提供一种文档结构化方法和装置,用于解决现有技术中文档结构化的效率低,出错率高的问题。本专利技术的第一个方面是提供一种文档结构化方法,包括:创建Schema文件和结构化规则文件;根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取所述结构化后的文档中预设的标志性标签的位置;根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。本专本文档来自技高网...
文档结构化方法和装置

【技术保护点】
一种文档结构化方法,其特征在于,包括:创建Schema文件和结构化规则文件;根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取所述结构化后的文档中预设的标志性标签的位置;根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档;所述标志性标签包括中文摘要标签和英文摘要标签;所述根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容,包括:从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块...

【技术特征摘要】
1.一种文档结构化方法,其特征在于,包括:创建Schema文件和结构化规则文件;根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取所述结构化后的文档中预设的标志性标签的位置;根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档;所述标志性标签包括中文摘要标签和英文摘要标签;所述根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容,包括:从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块无规则内容;从所述英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。2.根据权利要求1所述的方法,其特征在于,所述结构化规则文件中包括至少一个结构化规则,所述Schema文件中包括文档结构和基本元素类型,所述文档结构包括多个结构单位,所述结构单位与所述基本元素类型对应;所述根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,包括:根据所述结构化规则对所述文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;根据所述实例化规则对所述文档进行结构化,得到结构化后的文档。3.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,包括:遍历所述第一块无规则内容,查找最大字号中文段落;若查找到所述最大字号中文段落,将所述最大字号中文段落的格式设置为中文标题格式;若未查找到所述最大字号中文段落,根据段落位置优势对所述第一块无规则内容进行结构化。4.根据权利要求3所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,还包括:遍历所述第二块无规则内容,查找最大字号英文段落;若查找到所述最大字号英文段落,将所述最大字号英文段落的格式设置为英文标题格...

【专利技术属性】
技术研发人员:杨勇
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1