一种采用层次管道过滤器体系结构的多语言信息抽取方法技术

技术编号:4348584 阅读:272 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法中,对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件提取人名和地名;然后由语种独立的分词构件进行分词,由词性标注构件进行词性标注;再由组织机构名识别构件进行组织机构名的识别,由最长名词短语识别构件进行最长名词短语的识别。本发明专利技术提供了信息抽取系统的实用基础框架,成功解决了多个相互交叉重叠的算法的重用和泛化问题,改进了软件的可重用、可维护和可扩展性能,提高了信息抽取应用系统研发效率。

【技术实现步骤摘要】

本专利技术涉及一种实现信息抽取的方法,尤其涉及一种采用层次管道过滤器体系结 构的多语言信息抽取方法,属于自然语言处理(NLP)

技术介绍
信息抽取是研究如何从文本中抽取出特定的事实信息并将其以结构化的形式呈 现出来的技术。在自然语言处理(NLP)领域,为了高效率、高质量地完成信息抽取的任务, 需要专门设计和开发信息抽取系统。信息抽取系统的主要功能是从文本中抽取出特定的事 实信息,然后进行结构化处理,集成在一起,变成统一的组织形式。输入信息抽取系统的是 原始文本,输出的是固定格式的信息点。信息抽取技术标志着快速、准确的情报分析能力, 对一个国家的政治、军事和经济等方面的发展将产生直接影响,能产生巨大的社会效益和 经济效益。 信息抽取系统作为一类结构复杂而子任务众多的软件系统,拥有良好的软件体系 结构(Software Architecture)是十分重要的。 一个良结构的、专门面向信息抽取领域的 软件体系结构,有助于提高信息抽取系统的开发效率和提高系统的可靠性。从软件工程的 角度讲,可以提高系统的可扩展性和可维护性。 目前,在针对特定领域的软件体系结构(DSSA, Domain Specif icSoftware Architecture)中,管道过滤器风格的体系结构以其支持软件重用的特点,日益受到人们的 重视。 管道过滤器风格最早在Unix中出现。它适用于对序列数据进行一系列已经定义 的独立处理的应用程序。如图1所示,这种风格的特点包括 构件层次管道过滤器风格中的构件被称为过滤器(filter)。它对输入流进行 处理、转换,处理后的结果在输出端流出。这种计算常常是递进的,所以可能在全部的输入 接收完之前就开始输出。连接件连接件位于过滤器之间,起信息流导管的作用,被称为管道(pipe)。 每个构件都有输入和输出集合,数据流在输出处生成,在输入处被构件读取。 过滤器必须是独立的实体,它们不了解信息流从哪个过滤器流出,也不需要知道 将流入哪个过滤器。它们可以指定输入的格式,可以确保输出的结果,但是它们可能不知道 在管道之后将会是什么样的构件。过滤器之间不共享状态。管道和过滤器构成的网络输出的正确性不依赖于过滤器的递进处理顺序。 但是,目前尚没有在信息抽取系统中采用基于管道过滤器风格的体系结构的成熟 技术方案问世。
技术实现思路
鉴于目前尚无面向多语言信息抽取的专用软件体系结构,本专利技术所要解决的技术 问题在于提供。该方法实现了自4适应多语言信息抽取技术与面向特定领域的软件体系结构的有机结合。 本专利技术解决上述技术问题所采用的技术方案是 —种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件 的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人 名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连 接件传递数据流,其特征在于 (1)对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命 名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件 提取人名和地名; (2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由词性标注构件进行 词性标注; (3)由组织机构名识别构件进行组织机构名的识别,由最长名词短语识别构件进 行最长名词短语的识别。 其中,所述任务层构件由多个算法层构件组成,不同的任务层构件可以重用同一 个算法层构件。 在所述多语种自动识别构件包含四个算法层构件,其中首先使用n元语言建模构 件在多语种训练语料的基础上,使用期望最大化算法构件进行模型训练;获得了多语言的 n元语言模型,然后使用训练好的语言模型,用解码构件对评测语料进行解码,用n-gram评 测构件对评测语料进行评测。 所述语种独立的分词构件包含六个算法层构件,其中在n元语言建模构件的基础 上使用期望最大化算法构件和互信息修剪算法构件,用迭代的方法,得到n-multigram语 言模型;在语言模型的参数基础之上,使用具有主动学习功能的Active Viterbi构件,对 评测语料进行解码,最后通过分词评测构件对分词结果进行评测。 所述n-multigram语言模型中,将语言看作是无记忆的信源在状态i发射一个长 度为1的变长词序列,在确定最大长度后,在这一最大长度内作可变长度处理,所有的转移 概率是相等的,从所有可能的情况中找出子列概率乘积最大的,也就是最大似然结果。 所述词性标注构件由两个独立的算法层构件简单组合而成,其中一个算法层构件 基于经典的隐马尔科夫模型,在普通的标注语料库上完成训练;另一个算法层构件用于调 用第三方的词法分析接口完成词性标注。 所述人名地名识别构件包含七个算法层构件,其中首先基于标注语料采用L-BFGS 构件和GIS构件进行模型的训练,获得了基于最大熵的语言模型构件的参数;在语言模型 的参数基础上,使用Viterbi算法层构件进行解码,然后基于评测语料使用命名实体评测 构件进行结果的评测。 所述组织机构名识别构件包含七个算法层构件,其中首先由L-BFGS构件和GIS构件基于标注语料、基于加权置信度的主动学习构件使用未标注语料共同进行模型的训练,模型训练的结果得到最大熵的组织机构名语言模型构件;然后用树_栅格最优N解码算法构件对评测语料进行解码,使用组织机构名识别构件进行识别效果的评测。 所述最长名词短语识别构件包含四个算法层构件,首先在标注语料的基础上,采用L-BFGS构件进行模型的训练,获得了基于条件域最长短语语言模型构件的参数;在训练获得的模型的参数基础上,使用受限的前向-后向解码算法层构件进行解码,然后使用最 长短语评测构件在评测语料的基础上进行结果的评测。 本专利技术通过设计和实现一个采用层次管道过滤器体系结构的多语言信息抽取方 法,提供了信息抽取系统的实用基础框架,成功解决了多个相互交叉重叠的算法的重用和 泛化问题,改进了软件的可重用、可维护和可扩展性能,提高了信息抽取应用系统研发效率。附图说明构图。 构图。 构图。 一个用来表示管道过滤器风格体系结构的流程示意一个示例图,用来表示描述体系结构所用的UML模型中的元素。一个UML图,用来表示MuLIE体系结构的任务层拓扑结构图。一个UML图,用来表示多语种自动识别构件MuLid的结构图。一个UML图,用来表示语种独立的分词构件MuSeg的结构图。一个UML图,用来表示基于最大熵模型的人名地名识别构件CCNERec的结图7是一个UML图,用来表示基于最大熵模型的组织机构名识别构件CNERec的结图8是一个UML图,用来表示基于条件随机域的最长名词短语识别构件xMNP的结图9是一个UML图,用来表示Corpus构件及其派生构件的类图,具体实施例方式当前,在基于构件和体系结构的软件开发方法下,软件开发转化成了 构件开发+ 基于体系结构的构件组装的过程。这是因为在一些特定的领域中,不同系统及同一系统的 不同版本间在体系结构上存在着相似性,甚至有许多共同的构件,这非常有利于软件复用。 为了适应软件开发领域的上述变化,本专利技术所提供的多语言信息抽取方法采用了 如图l所示的基于管道过滤器风格的体系结构。在该体系结构中,将要处理的工本文档来自技高网
...

【技术保护点】
一种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连接件传递数据流,其特征在于:(1)对于待处理的语言材料,首先由所述多语种自动识别构件进行判别,然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由所述人名地名识别构件提取人名和地名;(2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由所述词性标注构件进行词性标注;(3)由所述组织机构名识别构件进行组织机构名的识别,由所述最长名词短语识别构件进行最长名词短语的识别。

【技术特征摘要】
一种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连接件传递数据流,其特征在于(1)对于待处理的语言材料,首先由所述多语种自动识别构件进行判别,然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由所述人名地名识别构件提取人名和地名;(2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由所述词性标注构件进行词性标注;(3)由所述组织机构名识别构件进行组织机构名的识别,由所述最长名词短语识别构件进行最长名词短语的识别。2. 如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征 在于所述任务层构件由多个算法层构件组成,不同的任务层构件重用同一个算法层构件。3. 如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征 在于不同的算法层构件的公共部分提取出来形成一个基础构件,由所述基础构件派生其它 的算法层构件。4. 如权利要求1 3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽 取方法,其特征在于在所述多语种自动识别构件包含四个算法层构件,其中首先使用n元语言建模构件在 多语种训练语料的基础上,使用期望最大化算法构件进行模型训练,获得多语言的n元语 言模型,然后使用训练好的语言模型,用解码构件对评测语料进行解码,用n-gram评测构 件对评测语料进行评测。5. 如权利要求1 3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽 取方法,其特征在于所述语种独立的分词构件包含六个算法层构件,其中在n元语言建模构件的基础上使 用期望最大化算法构件和互信息修剪算法构件,用迭代的方法,得到n-multigram语言模 型;在n-multigram语言模型的参数基础之上,使用具有主动学习功能的Active Viterbi 构件,对评测语料进行解码,最后通过分词评测构件对分词结果进行评...

【专利技术属性】
技术研发人员:黄河燕
申请(专利权)人:华建机器翻译有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1