一种采用层次管道过滤器体系结构的多语言信息抽取方法技术

技术编号：4348584 阅读：272 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法中，对于待处理的语言材料，首先由多语种自动识别构件进行判别，然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体，由人名地名识别构件提取人名和地名；然后由语种独立的分词构件进行分词，由词性标注构件进行词性标注；再由组织机构名识别构件进行组织机构名的识别，由最长名词短语识别构件进行最长名词短语的识别。本发明专利技术提供了信息抽取系统的实用基础框架，成功解决了多个相互交叉重叠的算法的重用和泛化问题，改进了软件的可重用、可维护和可扩展性能，提高了信息抽取应用系统研发效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种实现信息抽取的方法，尤其涉及一种采用层次管道过滤器体系结构的多语言信息抽取方法，属于自然语言处理(NLP)

技术介绍
信息抽取是研究如何从文本中抽取出特定的事实信息并将其以结构化的形式呈现出来的技术。在自然语言处理(NLP)领域，为了高效率、高质量地完成信息抽取的任务，需要专门设计和开发信息抽取系统。信息抽取系统的主要功能是从文本中抽取出特定的事实信息，然后进行结构化处理，集成在一起，变成统一的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息抽取技术标志着快速、准确的情报分析能力，对一个国家的政治、军事和经济等方面的发展将产生直接影响，能产生巨大的社会效益和经济效益。信息抽取系统作为一类结构复杂而子任务众多的软件系统，拥有良好的软件体系结构(Software Architecture)是十分重要的。一个良结构的、专门面向信息抽取领域的软件体系结构，有助于提高信息抽取系统的开发效率和提高系统的可靠性。从软件工程的角度讲，可以提高系统的可扩展性和可维护性。目前，在针对特定领域的软件体系结构(DSSA， Domain Specif icSoftware Architecture)中，管道过滤器风格的体系结构以其支持软件重用的特点，日益受到人们的重视。管道过滤器风格最早在Unix中出现。它适用于对序列数据进行一系列已经定义的独立处理的应用程序。如图1所示，这种风格的特点包括构件层次管道过滤器风格中的构件被称为过滤器(filter)。它对输入流进行处理、转换，处理后的结果在输出...

【技术保护点】
一种采用层次管道过滤器体系结构的多语言信息抽取方法，包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现，各构件之间通过连接件传递数据流，其特征在于：（１）对于待处理的语言材料，首先由所述多语种自动识别构件进行判别，然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体，由所述人名地名识别构件提取人名和地名；（２）在步骤（１）的基础上，由语种独立的分词构件进行分词，由所述词性标注构件进行词性标注；（３）由所述组织机构名识别构件进行组织机构名的识别，由所述最长名词短语识别构件进行最长名词短语的识别。

【技术特征摘要】
一种采用层次管道过滤器体系结构的多语言信息抽取方法，包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现，各构件之间通过连接件传递数据流，其特征在于(1)对于待处理的语言材料，首先由所述多语种自动识别构件进行判别，然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体，由所述人名地名识别构件提取人名和地名；(2)在步骤(1)的基础上，由语种独立的分词构件进行分词，由所述词性标注构件进行词性标注；(3)由所述组织机构名识别构件进行组织机构名的识别，由所述最长名词短语识别构件进行最长名词短语的识别。2. 如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于所述任务层构件由多个算法层构件组成，不同的任务层构件重用同一个算法层构件。3. 如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于不同的算法层构件的公共部分提取出来形成一个基础构件，由所述基础构件派生其它的算法层构件。4. 如权利要求1 3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于在所述多语种自动识别构件包含四个算法层构件，其中首先使用n元语言建模构件在多语种训练语料的基础上，使用期望最大化算法构件进行模型训练，获得多语言的n元语言模型，然后使用训练好的语言模型，用解码构件对评测语料进行解码，用n-gram评测构件对评测语料进行评测。5. 如权利要求1 3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于所述语种独立的分词构件包含六个算法层构件，其中在n元语言建模构件的基础上使用期望最大化算法构件和互信息修剪算法构件，用迭代的方法，得到n-multigram语言模型；在n-multigram语言模型的参数基础之上，使用具有主动学习功能的Active Viterbi 构件，对评测语料进行解码，最后通过分词评测构件对分词结果进行评...

【专利技术属性】
技术研发人员：黄河燕，
申请(专利权)人：华建机器翻译有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人