章节内容分层方法和装置、文章内容分层方法和装置制造方法及图纸

技术编号:8563012 阅读:145 留言:0更新日期:2013-04-11 04:40
本发明专利技术提供一种章节内容分层方法和装置以及文章内容分层方法和装置。本发明专利技术在充分考虑文章本身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上,利用选定词在文章中的出现频率,形成分层结构,将文章的内容分层。这样,能够有效地反映文章内容的结构层级关系。本发明专利技术还通过对不同章节、不同文章的内容进行结构处理,能够对跨文档内容进行有效的合并,从而实现跨文档间信息的有效管理,以便用户能够快速地获取所需的信息。

【技术实现步骤摘要】

本专利技术涉及ー种文章内容分层方法和装置,尤其涉及根据章节、文章内容的结构信息,进行章节、文章内容分层方法和装置。
技术介绍
近年来,随着信息技术的发展使收集、存储信息的能力得到迅速增长。数据管理技术的进步促进了商业和政府事务的信息化,产生了大量的数据信息,特别是随着互联网技术的发展,互联网上的信息更是按指数速度增长,并且其中大部分信息的格式为软件文件。为了管理这些数据,大型数据库正被广泛地应用于商业和科学工程等领域。然而,虽然数据库技术的进步使信息的收集和存储变得越来越容易,但是数据规模的爆炸性增长,已远远超出了人们的接受能力。随着数据库和计算机网络的广泛应用,数据库中存储的数据量急剧増大。在数量庞大的数据的背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。但传统的数据分析方法,很难对这些数据进行深层次的处理,也无法发现数据中存在的内在关系和隐含的信息。这样,造成在以指数形式增长的数据与人们从中能够获取的有效信息之间形成巨大的反差,导致了“数据爆炸但知识贫乏”的现象,如何让人们从庞大的信息中快速获取有效的信息成为当务之急。在这种情况下,专利申请本文档来自技高网...

【技术保护点】
一种章节内容分层方法,其特征在于,包括:抽取所述章节所包含的标题中的多个词汇的第1抽取步骤;将所抽取的标题中的所述词汇选定为核心词的选定步骤;利用规定了词汇隶属关系的隶属关系表,对所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤;对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤;抽取所述标题以外的语句中的多个词汇的第2抽取步骤;...

【技术特征摘要】
1.一种章节内容分层方法,其特征在于,包括抽取所述章节所包含的标题中的多个词汇的第I抽取步骤;将所抽取的标题中的所述词汇选定为核心词的选定步骤;利用规定了词汇隶属关系的隶属关系表,对所选定的核心词进行分层处理,将属于上位的核心词作为第I阶层核心词而属于下位的核心词作为第2阶层核心词形成第I区域分层结构的第I区域设置步骤;对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第I阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤;抽取所述标题以外的语句中的多个词汇的第2抽取步骤;将所抽取的多个词汇选定为选定词,基于所述选定词在文章中的出现频率进行排列的第I排列步骤;和按照出现频率高低的顺序,根据关联词表找出与所述第I区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下,形成子树归并图的第I分层步骤。2.如权利要求1所述的方法,其特征在于在所述第I抽取步骤和第2抽取步骤中,所述抽取是按照所述标题和/或语句的语法结构将所述标题和/或语句分割为多个词汇的处理。3.如权利要求1所述的方法,其特征在于在所述选定步骤和排列步骤中,所述选定是通过删除所述词汇中的虚词而得到所述核心词和/或选定词的处理。4.如权利要求1 3中任一项所述的方法,其特征在于所述关联词表基于语料库生成。5.一种文章内容分层方法,所述文章包括带标题的章节和不带标题的章节,其特征在于对于权利要求1 4任一项所述的方法得到的子树归并图,根据关联词表,找出同一阶层中的核心词的关联性,通过相关联的所述核心词的上位关联词,将不同的子树归并图连接起来生成树归并图。6.如权利要求5所述的方法,其特征在于,包括针对不带标题的章节,抽取所述章节的语句中的多个词汇,将抽取的词汇选定为选定词,基于所述选定词在所述文章中的出现...

【专利技术属性】
技术研发人员:刘宏建周泉邓攀小林义行
申请(专利权)人:日立中国研究开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1