结构文档信息块的自动分割方法和装置制造方法及图纸

技术编号:2949278 阅读:145 留言:0更新日期:2012-04-11 18:40
一种结构文档信息块的自动分割装置,以结构文档为输入,对该结构文档包含的信息块进行自动识别和分割并输出分割结果,其特征在于,包括:    文档结构信息生成部,其接受所述结构文档并根据该结构文档生成文档结构信息;    信息块范围确定部,其根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;    分割规则生成部,其根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;    分割部,其根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及结构文档信息块的自动分割方法和装置
技术介绍
随着网络技术的日益发展,人们可以从因特网等网络中获取越来越多的信息,为了有效的利用所获取的信息,需要对信息进行提取、分类以及存储等操作,但是由于因特网等网络上的信息大多采用结构文档的形式,人们可以直接获取的结构文档中不仅包含所希望的实际的内容信息,而且还包含很多表示文档结构的信息。结构文档中经常有格式上或者形式上相同或者相似的单元,每一个单位属于一个语义体,即本专利技术所述的信息块。由于信息块在语义上相对独立,我们需要从结构文档中识别和分割信息块,然后对这些信息块进行处理,如为每一个信息块进行索引,以备信息检索使用;由于信息块之间的结构相似,可以对某个信息块进行标注信息提取信息,然后对其他和该信息块相似的信息块进行信息提取。因此,需要一种从结构文档中识别和分割信息块的技术。这里,所谓的结构文档是,例如HTML(HyperText Markup Language),XML(Extensible Markup Language)等带有表示文档结构信息的文档,所谓信息块是指相对独立的信息单元。例如假设在HTML文件中,有汽车广告列表,则每一条广告信息为一个信息块;在BBS论坛中,页面上经常有话题(topic)列表,则每一个话题为一个信息块;一个搜索引擎的检索结果页面中,每一个检索结果为一个信息块。结构文档信息块的自动识别分割对信息提取和信息检索非常重要。例如,在HTML文件中,如何自动分割网页中的信息块对于Web页面信息提取的后续工作是非常重要的。从结构文档中识别并分割信息块的方法,根据人工参与的程度可分为以下三种完全人工识别分割方法;半自动识别分割方法,例如,首先通过观察发现信息块之间的分割标记,然后编写程序利用这些分割标记进行分割;以及全自动识别分割方法。作为现有的一种结构文档信息块的全自动识别分割方法,D.WEmbley等人(参见D.W.Embley,Y.S.Jiang,and Y.-K.Ng.Record-boundary discovery in web document s.In SIGMOD’99,1999)提出了一种针对HTML文档的信息块的自动分割方法(下面称为现有技术1),首先根据HTML文件的标记建立标记分析树,然后确定包含信息块的子树,最后使用一些启发式的算法在信息块的候选分割标记中选择分割标记。该算法在确定信息块的子树时未考虑选择性的标记(如“option”,“div”),所以这种情况将出错;另外由于选择分割标记时没有考虑深层次的信息和标记序列之间的重复,在某些情况下也会出错。作为另外一种结构文档信息块的全自动识别分割方法,Chia-huichang(参见C.H.Chang.and S.C.Lui.IEPADInformation Extractionbased on Pattern Di scovery,In the Proceedings of the tenthInternational Conference on World Wide Web,pp.681-688,May 2-6,2001,Hong Kong.)提出下述方法(下面称为现有技术2),将HTML文档作为一个字符流,利用PAT(Patricia tree)算法计算重复标记序列,每个重复标记序列的所有子树内容为一个信息块。由于其未考虑HTML文档的结构特征,因此当信息块之间不是非常一致时,可能分割出错。
技术实现思路
为了解决上述问题,本专利技术提供一种结构文档信息块的自动分割方法和装置,其能对结构文档中的选择性标记进行处理,并考虑深层次的信息和标记序列之间的重复以及结构文档的结构特征来自动进行识别和分割,即使结构文档的结构、重复模式比较复杂或信息块之间不是非常一致的情况下,也能够对结构文档中的信息块进行正确的识别和分割。为了达到本专利技术的目的,本专利技术的结构文档信息块的自动分割装置以结构文档为输入,对该结构文档包含的信息块进行自动识别和分割并输出分割结果,其特征在于,包括文档结构信息生成部,其接受所述结构文档并根据该结构文档生成文档结构信息;信息块范围确定部,其根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;分割规则生成部,其根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;分割部,其根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述文档结构信息生成部所生成的文档结构信息为文档结构树,并且采用宽度优先算法搜索该文档结构树,找到有效子节点最多而且其有效文本量和整个文档的有效文本量之比大于预先设定的阈值的节点,该节点所对应的范围就是包含所有信息块的最小范围,以该节点为根的子树为包含所有信息块的最小子树。根据本专利技术,使用有效子节点数量和有效文本量和整个文档的有效文本量之比值作为判定包含所有信息块的最小子树的根节点可以消除某些特定的节点和特定的文本对判定包含所有信息块的最小子树的根节点的影响;采用宽度优先算法搜索该文档结构树可以优先考虑距离文档结构树的根节点近的节点。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述文档结构信息生成部所生成的文档结构信息为文档结构树,所述分割规则生成部利用信息块所在的子树的根节点的子节点及其孙子节点的标记序列计算最优重复模式。根据本专利技术,不仅利用信息块所在的子树的根节点的子节点信息,而且还利用子树的根节点的孙子节点的标记序列信息,因此可以处理仅利用信息块所在的子树的根节点的子节点的标记序列所不能解决的问题,具体情况参见实例2。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述分割规则生成部如下计算最优重复模式首先对所述根节点的子节点序列,计算第一重复模式;然后对根节点的子节点和孙子序列,计算第二重复模式;最后从所述的第一重复模式和第二重复模式中选择最优重复模式。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述分割规则生成部通过以下步骤计算第一重复模式和第二重复模式中的至少一个计算原始标记序列的第一重复序列;根据第一重复序列,用一个特定的符号代替标记序列中的第一重复序列,得到原始标记序列的变形序列;计算所述变形序列的第二重复序列;根据第二重复序列,确定最终重复模式。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述分割规则生成部使用覆盖度计算重复模式和选择最优重复模式。其中,某个模式对某个序列的覆盖度指该序列中符合该模式的元素集合的所有数目和该序列的数目的比值。根据覆盖度可以精确第计算和选择最优重复模式。另外,本专利技术的结构文档信息块的自动分割装置,其特征在于所述结构文档为HTML、XML或XHTML。附图说明图1表示结构文档信息块自动分割装置结构图;图2表示本专利技术的实施方式的实例1的HTML文件;图3表示本专利技术的实施方式的实例1的HTML文件的源文件;图4表示本专利技术的实施方式的实例1的HTML文件的结构信息图;图5表示本专利技术的实施方式的实例1的HTML文件的分割结果;图6表示本专利技术的实施方式的实例2的HTML文件;图7表示本专利技术的实施方式的实例2的HTM本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:瞿有利徐国伟
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利