【技术实现步骤摘要】
本专利技术涉及的是一种信息安全
的系统,具体是一种开放式文档同构 弓i擎系统(ODIE — Open Document Isomorphic Engine)。
技术介绍
在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解 和不良信息过滤。这类产品都面临着一个统一的问题,即从各式各样的文档中提 取出用于理解和过滤的纯文本信息。由于现实中文档格式的复杂和多样性,所以 大多数系统都回避了这个难点问题,从而导致这些系统准确率低。目前获得纯文本信息的过程有两个难点问题(1),如何处理多种多样的原 始文档格式,并从中获得纯文字信息。根据结构化程度的不同,现实中的各种电 子文档可以分为结构化文档(如,XM)、半结构化文档(如,HTML, D0C, WPS, PDF等)和自由文档(如,TXT)三类。自由文档仅包含文本内容,获得纯文本信 息极其简单。而结构化文档和半结构化文档包含了文本内容和大量的标记(Tag) 信息,因此获得纯文本信息的过程就相当复杂。如果考虑到各种文档格式的版本 差异,获得纯文本信息的问题就更加复杂了。因此,能够用一个统一的方法来处 理多种多样的原始文档格式是一个关键问题。(2),如何对文字信息进行统一描 述,并使其适用于包含内容安全在内的各种应用系统。除内容安全系统外,基于 文本内容的信息过滤、文本自动分类、信息检索等都需要对多格式文档的预处理。设计一个能够适用于各种系统的统一描述将是一个关键问题。'开放式同构引擎的目标是从多种多样的文档格式中获取文本内容及其所代 表的语义,并提供给其它高层系统使用。多格式文档的同构化可使其他应 ...
【技术保护点】
一种开放式文档同构引擎系统,其特征在于,包括:物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中:所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑 结构模块,物理结构模块还为整个系统提供规范的数据;所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块; 所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;所述概念抽取模块自动概括出文档包含的 概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模 ...
【技术特征摘要】
1、一种开放式文档同构引擎系统,其特征在于,包括物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个系统提供规范的数据;所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块;所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模型表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。2、 根据权利要求l所述的开放式文档同构引擎系统,其特征是,所述的物理 结构模块,其输入包括具有各式各样格式的电子文档信息,电子文档包含了多格 式的异构信息,物理结构模块将这些异构信息进行同构化,即用统一的规范来表 示这些异构信息,物理结构模块输出的文档的物理结构是由无格式的字符、字符 对应的格式信息、轮廓信息组成,物理结构能够识别出回车换行符,另外,物理 结构还标明原始文档的语种。3、 根据权利要求1或2所述的开放式文档同构引擎系统,其特征是,所述的 物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽略掉垃圾信息, 所述的文本对应的格式信息分为两种字符格式信息和段格式信息,字符格式信 息是用来描述单个字符的,段格式信息是用来描述段的。4、 根据权利要求1或2所述的开放式文档同构引擎系统,其特征是,所述的 物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除噪音子模块、 文章特征识别子模块、小标题识别子模块、小标题纠错子模块和生成逻辑结构树 子模块,其中所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中 硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模 块;所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获 得的格式信息在逻辑结构层进行大粒度统一,并将格式标准化后的文档输出给消 除噪音子模块;所述消除噪音子模块接受格式信息标准化子模块的输入,去除文...
【专利技术属性】
技术研发人员:刘功申,杨金升,王士林,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。