开放式文档同构引擎系统技术方案

技术编号:2834150 阅读:170 留言:0更新日期:2012-04-11 18:40
一种信息安全技术领域的开放式文档同构引擎系统,其中:物理结构模块接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块;逻辑结构模块对物理结构模块输入的信息进行处理得到文档的逻辑结构,并将该其输入到词法及句法分析模块;词法及句法分析模块接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,并将得到的该文档输入概念抽取模块;概念抽取模块对词法及句法分析模块输入的信息进行处理得到由文档中的词转化出的概念及概念属性,并将得到的该概念及概念属性输入主题表示模块;主题表示模块对概念抽取模块输入的信息进行处理得到以概念为单位的文档主题。本发明专利技术解决了针对多格式文档无法统一处理的问题。

【技术实现步骤摘要】

本专利技术涉及的是一种信息安全
的系统,具体是一种开放式文档同构 弓i擎系统(ODIE — Open Document Isomorphic Engine)。
技术介绍
在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解 和不良信息过滤。这类产品都面临着一个统一的问题,即从各式各样的文档中提 取出用于理解和过滤的纯文本信息。由于现实中文档格式的复杂和多样性,所以 大多数系统都回避了这个难点问题,从而导致这些系统准确率低。目前获得纯文本信息的过程有两个难点问题(1),如何处理多种多样的原 始文档格式,并从中获得纯文字信息。根据结构化程度的不同,现实中的各种电 子文档可以分为结构化文档(如,XM)、半结构化文档(如,HTML, D0C, WPS, PDF等)和自由文档(如,TXT)三类。自由文档仅包含文本内容,获得纯文本信 息极其简单。而结构化文档和半结构化文档包含了文本内容和大量的标记(Tag) 信息,因此获得纯文本信息的过程就相当复杂。如果考虑到各种文档格式的版本 差异,获得纯文本信息的问题就更加复杂了。因此,能够用一个统一的方法来处 理多种多样的原始文档格式是一个关键问题。(2),如何对文字信息进行统一描 述,并使其适用于包含内容安全在内的各种应用系统。除内容安全系统外,基于 文本内容的信息过滤、文本自动分类、信息检索等都需要对多格式文档的预处理。设计一个能够适用于各种系统的统一描述将是一个关键问题。'开放式同构引擎的目标是从多种多样的文档格式中获取文本内容及其所代 表的语义,并提供给其它高层系统使用。多格式文档的同构化可使其他应用系统 摆脱文档分析这个难点,而只专注于系统本身的专有技术。文档同构化是基于内 容的信息安全、自动分类、自动标引、自动检索等相关研究的基础性工作。经对现有技术文献的检索发现,论文Document Logic Structure ByMachine Learning, IEEE Conference on Machine Learning and Cybernetics, 2002, 12 (基于机器学习的文档逻辑结构分析,IEEE机器学习和控制论会议, 2002年12月)提出了开放式文档层次模型(ODLM-Open Document Layer Module), 该模型根据自然语言处理相关技术的实际需要,引文把开放式文档层次模型分为 物理结构层、逻辑结构层、词法和句法分析层、概念抽取层、主题表示层等5 个层次。通过5个层次,ODLM细化了整个电子文档分析的过程,描述了各个层 次的具体内容,为电子文档分析提供了一个清晰层次框架。但是并没有一个完整 的可以具体应用的系统。检索中还发现,Document Logical Structure Analysis Based on Perc印tive Cycles (基于感知回路的文档逻辑结构分析),引文出处Lecture Notes in Computer Science 3872, PP. 117-128. Springer-Verlag Berlin Heidelberg 2006 (计算机科学报告,3872巻,117-128页,2006年,德国海德 尔堡Springer出版社出版)。该文献用神经网络的方法把图像文档(或光学扫描 文档)的逻辑结构识别出来,但仅集中在逻辑结构分析上。其缺陷和不足如下 1)主要目标是仅是分析出文档逻辑结构;2)直接从图像文件分析文档逻辑结构, 在识别逻辑结构之前无抽象的接口——文档物理结构识别;3)由于无文档物理结构这个中间接口,仅仅能够处理单一的文档格式,而不是可以处理多种多样的格式;4)未能提供涉及词、句、概念、主题等层次的服务。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种开放式文档同构引擎系 统,使其能够用于提取多格式文档的纯文本内容及其所代表的语义,解决了针对 多格式文档无法统一处理的问题,可应用于语义和互联网内容安全分析类项目。本专利技术是通过以下技术方案实现的,本专利技术包括5大功能模块,按信息处理的先后顺序依次为物理结构模块、逻辑结构模块、词法及句法分析模块、概 念抽取模块、主题表示模块,其中所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种 文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个 系统提供规范的数据;所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该 文档的逻辑结构输入到词法及句法分析模块;所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和 句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处 理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模 块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属 性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文 档的向量空间模型(VSM)表示,它接收概念抽取模块输入的信息,并对该信息 进行处理得到以概念为单位的文档主题。所述的物理结构模块,它的输入包括具有各式各样格式的电子文档(例如, TXT, XML, HTML,字符扫描文件,DOC, WPS, PD等等)信息。物理结构模块输 出的文档的物理结构是由无格式的字符(例如,英文字母、汉字等)、字符对应 的格式信息、轮廓信息组成。物理结构能够识别出回车换行符,也就是说能清晰 地区分开自然段。另外,物理结构应该标明原始文档的语种(例如,英语、汉语 等等),同时,如果语种是汉语,原始文档的编码格式(例如,GB、 BIG5等等) 也应该在物理结构中标出。电子文档具有各式各样格式,不便于信息处理。 一般 情况下,电子文档包含了多格式的异构信息,通过物理结构模块将这些异 构信息进行同构化,也就是用统一的规范来表示这些异构信息。所述的物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽 略掉垃圾信息。所述的文本对应的格式信息可以分为两种字符格式信息和段格 式信息。字符格式信息是用来描述单个字符的。段格式信息是用来描述段的。所述的物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除 噪音子模块、文章特征识别子模块、小标题识别子模块、小标题纠错子模块和生 成逻辑结构树子模块,其中所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中 硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模块;所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获 得的格式信息在逻辑结构层进行大粒度统一,并将格式标准化后的文档输出给消 除噪音子模块;所述消除噪音子模块接受格式信息标准化子模块的输入,去除文章中的非正 文信息部分,并将去掉了这些噪音后的文档输出给文章特征识别子模块;所述文章特征识别子模块接受文章特征识别子模块的输入,判断各个自然段 的逻辑类别,并将标示出了自然段逻辑类别的文档输出给小标题识别子模块;所述小标题识本文档来自技高网
...

【技术保护点】
一种开放式文档同构引擎系统,其特征在于,包括:物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中:所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑 结构模块,物理结构模块还为整个系统提供规范的数据;所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块; 所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;所述概念抽取模块自动概括出文档包含的 概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模 型表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。...

【技术特征摘要】
1、一种开放式文档同构引擎系统,其特征在于,包括物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个系统提供规范的数据;所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块;所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模型表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。2、 根据权利要求l所述的开放式文档同构引擎系统,其特征是,所述的物理 结构模块,其输入包括具有各式各样格式的电子文档信息,电子文档包含了多格 式的异构信息,物理结构模块将这些异构信息进行同构化,即用统一的规范来表 示这些异构信息,物理结构模块输出的文档的物理结构是由无格式的字符、字符 对应的格式信息、轮廓信息组成,物理结构能够识别出回车换行符,另外,物理 结构还标明原始文档的语种。3、 根据权利要求1或2所述的开放式文档同构引擎系统,其特征是,所述的 物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽略掉垃圾信息, 所述的文本对应的格式信息分为两种字符格式信息和段格式信息,字符格式信 息是用来描述单个字符的,段格式信息是用来描述段的。4、 根据权利要求1或2所述的开放式文档同构引擎系统,其特征是,所述的 物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除噪音子模块、 文章特征识别子模块、小标题识别子模块、小标题纠错子模块和生成逻辑结构树 子模块,其中所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中 硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模 块;所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获 得的格式信息在逻辑结构层进行大粒度统一,并将格式标准化后的文档输出给消 除噪音子模块;所述消除噪音子模块接受格式信息标准化子模块的输入,去除文...

【专利技术属性】
技术研发人员:刘功申杨金升王士林
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1