一种版式文件中结构化信息获取的方法及装置制造方法及图纸

技术编号:8834243 阅读:142 留言:0更新日期:2013-06-22 20:28
本发明专利技术公开了一种版式文件中结构化信息获取的方法及装置,用以提高版式文件的信息化管理中对版式文件的结构化速度,该方法包括:确定当前目录项对应的起始页码信息,将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符,在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息,根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。

【技术实现步骤摘要】

本专利技术涉及信息处理
,特别涉及一种版式文件中结构化信息获取的方法及装置
技术介绍
在对图书版式文件的信息化管理中,需对每个图书版式文件进行结构化,获取每个版式文件的结构化信息以形成对应的目录数据。而现有的已形成的图书版式文件的目录数据中,一般只包括每个目录项的名称字符以及每个目录项的起始位置,而并不包括每个目录项的结束位置,以及每个目录项的名称在文章中的具体区域。可见,现有的图书版式文件的结构化信息并不完整,不能根据现有的目录数据确定每个目录项对应的具体起始及结束位置,从而,不能单独提供图书版式文件的具体目录项的版式和流式阅读,即不能满足多样化阅读的需求。因此,在对每个图书版式文件进行结构化的过程中,需获取每个版式文件比较完整的结构化信息。一般通过人工对图书版式文件进行结构化,即人工对图书版式文件中每个目录项的文章内容进行阅读分析查看,然后根据查看的文章内容,从中获取所需的结构化数据。在对大量的图书版式文件的信息化管理时,由于人工原因的限制,例如:理解能力或体力,势必会出现一些错误,并且,人工的速度也比较慢。从而,影响了结构化信息获取的正确率以及速度。
技术实现思路
本专利技术实施例提供一种版式文件中结构化信息获取的方法及装置,用以提高版式文件的信息化管理中对版式文件的结构化速度。本专利技术实施例提供一种版式文件中结构化信息获取的方法,包括:确定当前目录项对应的起始页码信息;将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。本专利技术实施例提供版式文件中结构化信息获取的装置,包括:确定单元,用于确定当前目录项对应的起始页码信息;分割单元,用于将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;匹配单元,用于在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;获取单元,用于根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。本专利技术实施例中,将起始页码信息对应页的第一文章内容分割成至少一个块结构字符,并从中查找与当前目录项的名称字符匹配的第一块结构字符,并获取第一块结构字符在所述第一文章内容中第一位置信息,然后,根据第一位置信息确定当前目录项的起始位置信息,以及上一目录项的结束位置信息,这样,只需对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。附图说明图1为本专利技术实施例中版式文件中结构化信息获取的流程图;图2为本专利技术实施例中匹配查找的流程图;图3为本专利技术实施例中版式文件的目录数据信息的示意图;图4为本专利技术实施例中版式文件的目录数据信息更新后的示意图;图5为本专利技术实施例中结构化的版式文件数据信息的示意图;图6为本专利技术实施例中版式文件中结构化信息获取的装置的结构图。具体实施例方式本专利技术实施例中,对特定页的文章内容进行分析和匹配,就可获取到版式文件的结构化信息,从而,加快了对版式文件的结构化速度。参见图1,本专利技术实施例中版式文件中结构化信息获取的过程包括:步骤101:确定当前目录项对应的起始页码信息。在对版式文件的信息化管理中,已经加载了版式文件的目录数据信息。其中,目录数据信息包括:目录项的层次关系,目录项的名称字符,目录项对应起始页码。该目录数据信息可已XML文件格式进行描述,或者其他的自定义的TXT文件格式,或EXCEL文件格式进行描述。这样,将需单独提供版式和流式阅读的具体目录项确定为当前目录项,或者,将目录数据信息中任意一个目录项确定为当前目录项,并从中查找到该当前目录项对应的起始页码。本专利技术实施例中,为提高结构化信息获取的正确率,可在确定当前目录项对应的起始页码之前,分析加载的版式文件的目录数据信息的有效性,如:目录的层次关系,以及个目录项的起始页码的有效性等等。步骤102:将起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符。版式文件一般有共同特征,例如文章中的目录文字和文章中的正文文字的字体大小、字体格式差别都比较大,以及目录和正文的第一行距和正文间的第二行距差距也都比较大,因此,本专利技术实施了中,可根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将第一文章内容分割成一个、两个,或多个块结构字符。因此,内容属性信息包括字符信息以及行距信息。并且,本专利技术实施例中,块结构字符包括:段结构字符或行结构字符。则可依据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,采用自动成段或自动成行的方式将第一文章内容分割成对应的段结构字符或行结构字符。步骤103:在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字符。本专利技术实施例中,可采用设定的匹配模块,在每个块结构字符中查找与当前目录项的名称字符匹配的第一块结构字。匹配模块可以多种多样,从而匹配查找的过程也可以多种多样。步骤104:获取第一块结构字符在第一文章内容中第一位置信息。已查找到与当前目录项的名称字符匹配的第一块结构字符,从而可获取第一块结构字符在第一文章内容中第一位置信息。第一位置信息包括:所在页的页码信息,坐标信息,横向的起始线坐标信息,和横向的终止线坐标信息中的一种或多种。步骤105:根据第一位置信息获取当前目录项的起始位置信息,以及上一目录项的结束位置信息。—般可将第一位置信息确定当前目录项的起始位置信息,将第一块结构字符的上一个块结构字符的位置信息确定上一目录项的结束位置信息。但是,当第一位置信息是第一文章内容的结束块结构字符的位置信息时,将起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第二文章内容中起始块结构字符的位置信息,确定当前目录项的起始位置信息,即结合两者的位置信息,确定当前目录项的起始位置信息。当第一位置信息是第一文章内容的起始块结构字符的位置信息时,将起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构字符,并根据第一位置信息,以及第三文章内容的结束块结构字符的位置信息,确定上一目录项的结束位置信息。同样,结合两者的置信息,确定当前目录项的起始位置信息。至此,当前目录项对应的结构化信息已获取了。此时可更新版式文件的目录数据信息,即本专利技术实施例还包括:步骤106:根据当前目录项的起始位置信息,以及上一目录项的结束位置信息更新版式文件的目录数据信息。这里,可将确定的当前目录项的起始位置信息,以及上一目录项的结束位置信息加入到目录数据信息对应的XML文件中。本专利技术实施例中还可待所有目录项对应的结构化信息都获取后,再一次更新版式文件的目录数据信息。由此可见,只需对以起始页码信息对应页的第一文章内容,或者对起始页码信息对应页的第一文章内容以及起始页码信息对应的后一页的第二文章内容,或者,对起始页码本文档来自技高网...

【技术保护点】
一种版式文件中结构化信息获取的方法,其特征在于,包括:确定当前目录项对应的起始页码信息;将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符;在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息;根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。

【技术特征摘要】
1.一种版式文件中结构化信息获取的方法,其特征在于,包括: 确定当前目录项对应的起始页码信息; 将所述起始页码信息对应页的第一文章内容,按照内容属性信息分割成至少一个块结构字符; 在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符,并获取所述第一块结构字符在所述第一文章内容中第一位置信息; 根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息。2.如权利要求1所述的方法,其特征在于,所述按照内容属性信息分割成至少一个块结构字符包括: 根据目录文字和正文文字的字体大小及格式的不同,以及目录和正文间的第一行距与正文间的第二行距的不同,将所述第一文章内容分割成至少一个块结构字符,其中,所述块结构字符包括:段结构字符或行结构字符。3.如权利要求1所述的方法,其特征在于,所述在每个块结构字符中查找与所述当前目录项的名称字符匹配的第一块结构字符包括: 在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则, 利用正则表达式,在每个块结构字符中查找是否有与所述当前目录项的名称字符匹配的块结构字符,如有,则将查找到的块结构字符确定为第一块结构字符;否则, 根据逐字符匹配计算每个块结构字符与所述当前目录项的名称字符之间的匹配度,当所述匹配度达到设定阈值时,将所述匹配度对应的块结构字符确定为第一块结构字符。4.如权利要求3所述的方法,其特征在于,所述在每个块结构字符中查找是否有与所述当前目录项的名称字符中每个字符都匹配的块结构字符之前还包括: 将每个块结构字符以及所述当前目录项的名称字符统一为全角字符或半角字符。5.如权利要求1所述的方法,其特征在于,所述根据所述第一位置信息获取所述当前目录项的起始位置信息,以及上一目录项的结束位置信息包括: 当所述第一位置信息是所述第一文章内容的结束块结构字符的位置信息时,将所述起始页码信息对应的后一页的第二文章内容按照字符的属性信息分割成至少一个块结构字符,并根据所述第一位置信息,以及所述第二文章内容中起始块结构字符的位置信息,确定所述当前目录项的起始位置信息; 当所述第一位置信息是所述第一文章内容的起始块结构字符的位置信息时,将所述起始页码信息对应的前一页的第三文章内容按照字符的属性信息分割成至少一个块结构...

【专利技术属性】
技术研发人员:董宁黄文娟张保亮
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1