一种基于最大熵模型建模和命名实体识别的方法及装置制造方法及图纸

技术编号:2823403 阅读:328 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于最大熵模型建模和命名实体识别的方法,该方法包括:输入标注命名实体的训练文本;对所述训练文本中的字符进行角色标注,得到训练文本的字符角色标注;根据字符角色标注,建立所述字符的特征项;将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。该方法不需分词,因此解决了进行命名实体识别时,分词错误和它导致的信息丢失而影响识别效果的问题。

【技术实现步骤摘要】

本专利技术属于自然语言处理范畴,特别涉及基于最大熵模型建模和命名实体 识别的方法及装置。
技术介绍
命名实体(Named Entity, NE)是指被命名的唯一确定的具有特定意义的 最小信息单位——专有名称和数量短语,主要包括7种类型的命名实体人名、 组织名、地名、日期、时间,货币值和百分数。命名实体识别任务主要是识别 出文本中的命名实体,并加以归类。命名实体识别最初是在MUC-6(Message Understanding Conference消息理解研讨会)上作为 一个子任务提出的,从整体 的命名实体识别的研究结果来看,日期、时间、货币值、百分数的识别相对简 单,其规则的设计、数据的统计训练等也比较容易。因为人名、组织名、地名 等命名实体具有开放性和发展性的特点,而且构成规律有很大的随意性,所以对它们的识别就可能会有较多的错选或漏选。现在大多数的命名实体识别的研 究都集中在这三种命名实体的识别技术上。目前,英文的命名实体识别技术已经达到了较高水平,和英文相比,中文 的命名实体识别要困难得多。对于中文人名、地名的识别,科研人员做过许多艰苦的探索和研究。现有的技术是,首先对文本进行分词,在分词的基础上,采用最大熵模型 进行命名实体的识别(明丽宏,哈尔滨工业大学硕士论文,2004)。使用最大熵 的区别式模型进行训练和学习,把识别问题作为分词后的词的角色标注问题, 在文本中进行命名实体识别。由现有技术可以看出,由于该方法是在分词的基础上进行的命名实体识别,分词错误和它导致的信息丟失会影响识别效果。例如人名的上文和姓成 词、人名的末字和下文成词等,姓、人名的末字等语言学信息就丟失了。
技术实现思路
为了解决在分词的基础上进行的命名实体的识别,分词错误和它导致的信 息丟失会影响识别效果的问题,本专利技术实施例提供了 一种基于最大熵模型建模 的方法,包4舌输入标注命名实体的训练文本;对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;根据字符角色标注,建立所述字符的特征项;将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注 的数据模型。本专利技术实施例还提供一种命名实体识别的方法,包括 加载如前所述的基于字符角色标注的数据模型;输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字 符特征项序列;将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模 型中,得到具有最大产生概率的待识别文本字符角色标注序列;对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。 本专利技术实施例还提供一种基于最大熵模型建模的装置,包括输入模块用于输入标注命名实体的训练文本;标注模块用于对所述训练文本中的字符进行角色标注,得到带有字符角 色标注的训练文本;建立模块用于根据字符角色标注,建立所述字符的特征项;建模模块用于将所述字符的特征项输入到最大熵的建模工具中,得到基 于字符角色标注的数据模型。本专利技术实施例还提供一种命名实体识别的装置,包括加载模块用于加载基于字符角色标注的数据模型;特征项生成模块用于输入待识别文本,建立待识别文本中各字符的特征 项,得到待识别文本字符特征项序列;角色标注生成模块用于将待识别文本中字符特征项序列,输入到所述基 于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色 标注序列;匹配模块用于对待识别文本字符角色标注序列的标注名称模式匹配,得 到命名实体。由上述本专利技术提供的具体实施方案可以看出,由于建立了基于字符角色标 注的数据模型,并通过该数据模型进行命名实体的识别,不需分词,这就解决 了进行命名实体识别时,因为分词错误和它导致的信息丢失而影响识别效果的 问题。附图说明图1为本专利技术提供的第一实施例的方法流程图; 图2为本专利技术提供的第二实施例的方法流程图; 图3为本专利技术提供的第三实施例的结构示意图; 图4为本专利技术提供的第四实施例的结构示意图。具体实施例方式在本专利技术具体实施例的技术方案中,采用最大熵模型,充分利用多种语言 学信息,直接对字符进行角色标注,得到具有最大概率的角色标注序列,并通 过简单的标注名称模式匹配,来有效标识命名实体,如人名、地名和组织名。我们认为句中的每个字符都隐含地携带了 一个角色信息(角色是字符本身 的属性)。本专利技术中的字符角色就是单个字符在命名实体中或句子所起的作用。 角色标注就是把句子中的单字符的角色标注出来。这些角色可以是一个地名 (人名)的第一个字符、也可是一个地名(人名)的最后一个字符或者一个地 名(人名)的中间字符等等。如在人名、地名识别中,定义多种角色,在文本 "张三去北京市看望小李"中,我们可以定义张三的"张"的角色为姓氏、小李的 "小,,的角色为姓名前缀、北京市的"市"角色为地名后缀。我们可以根据不同的需要,定义不同的角色信息,在本专利技术中,我们优选的方案是定义了 15种角 色信息,具体角色信息如下表所示<table>table see original document page 7</column></row><table>在本专利技术中,我们采用最大熵模型。在最大熵模型(RatnaparkhiA. 1997.)的架构下,利用各种有效的语言学特征信息(语言学特征信息就是字符对上下 文产生影响的属性,如北京市的"市,,往往作为一个地名的后缀,因此它的一个 语言学特征信息就是地名后缀、小张的"小"它的一个语言学特征信息就是人名前缀等),建立基于上下文语境(上下文语境指选定字符前后字符的属性,如字符角色、字符类型等)和角色标注信息的最大熵;漢型。 关于事件概率p的熵的定义如下柳=- Z^)log劇最大熵概率模型被定义在空间HxT上,其中H代表所有上下文中特征的 集合, 一个选定字符的上下文范围可选择为前后各两个字符,特征包括字符本 身的特性和语言学特征信息,T代表一个字符所有可能的角色标记集合,hi代 表给定一个特定上下文,ti代表某一特定角色标记。给定一个特定上下文hi,特定角色标记ti的条件概率如公式(1)所示<formula>formula see original document page 8</formula>公式(1)表示给定一个特定上下文hi,特定角色标记ti的概率在整体概 率中占多少比率,整体;f既率指给定一个特定上下文hi,各种特定角色标记ti 的概率之和。其中 <formula>formula see original document page 8</formula>公式(2)表示在给定上下文环境hi,下得到特定角色标记ti的概率,在 公式(2)中是兀是正则化常数,而^,al,a2,…an)是模型参数,(fl,f2,."fn)被 称为特征函数。参数aj表示第j个特征的权重。特征用 一个特征函数巧来体现, 特征函数为一个二值函数,特征函数形式如下<formula>formula see original document page 8</formula>wi为要进行处理的字符,suffix (wi)为该字符的后缀特征。 对于每一个特征函数Q(hi, ti),模型的约束本文档来自技高网
...

【技术保护点】
一种基于最大熵模型建模的方法,其特征在于,包括:    输入标注命名实体的训练文本;    对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;    根据字符角色标注,建立所述字符的特征项;    将所述字符的特征项输入到最大熵的建模工具中,得到基于所述字符角色标注的数据模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:王学武彭学政杨建武肖建国
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1