基于统计模型的Web命名实体识别方法技术

技术编号:7051802 阅读:399 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种基于统计模型的Web命名实体识别方法,用结构和文本特征对Web命名实体进行多特征表示;本发明专利技术将统计方法和规则方法相结合,采用改进的MR-GHMM来优化训练的效率;用改进隐马尔可夫的模型对实体进行标注,对各命名实体标注,实现实体识别;对Web复杂命名实体识别过程作为二层来处理,将第一层的标注结果作为第二层处理的输入进行复杂嵌套实体识别。本发明专利技术与原有识别算法相比,该算法的识别准确率提高了,模型训练的时间复杂度也大幅降低。通过对Web命名实体的多特征表示,针对不同领域的实体特征进行修改,就可以应用与Web上不同领域的命名实体进行识别。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,主要涉及Web信息抽取领域,尤其涉及Web命名实体识别。具体是一种,主要用来识别出Web命名实体,实现对网页信息的获取以及预处理。
技术介绍
Web命名实体识别技术主要针对Web页面的信息进行最基本数据的获取。通过获得数据从而能对网页的内容进行识别,也为后续的各种应用如信息抽取、自动问答、及其翻译等都需要命名实体识别技术的支撑,这也是自然语言处理中一项基本工作。在网络技术飞速发展,并广泛应用于各个领域的当今,对它的研究非常重要。一般来说,命名实体识别就是对一篇或多篇待处理的文本,识别出其中出现的命名实体,比如人名、地名、机构名、 时间日期、数字等。目前,对英文命名实体识别已经取得了很好的效果,对它的研究与开发主要集中在学习领域,包括隐马尔可夫模型、最大熵模型和支持向量机等,一些系统已经可以实际应用。在第七届信息理解会议(MUC-7)时,最好的英文命名实体识别系统已经达到了 95%的查全率和92 %的查准率。与英文命名实体识别相比,中文命名实体识别的效果还差很多。 第二届多语种实体评价会议(MET-2)时,最好的中文命名实体识别系统在人名、地名、机构名的查准率分别为66、89、89%,查全率分别为92、91、88%。目前中文命名实体识别从方法上来说,主要是基于规则和统计这两种方法。基于规则的方法一般采用特征字或特征词触发的方式来进行命名实体识别。基于统计的方法主要通过,对大规模语料库命名实体及其上下文进行统计分析,构建统计模型进行命名实体识别。早期的中文命名实体识别模型包含数个子模型,每个子模型处理某一类实体,如对人名的识别可能使用基于规则的方法,对地名、机构名的识别可能使用基于统计的方法。 例如,隐马尔可夫模型、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型、条件随机场模型等。随后就出现了各种改进模型,对不同的实体用统一的模型来处理。传统识别方法并没有考虑到所识别实体在Web中的一些显示结构特征,这样对于 Web实体的特征表示就会不全面。另外一点,传统识别方法对Web命名实体的识别会针对不同实体建立不同模型,这样就无法对那些到底是单独实体还是其他复杂实体的一个成分这种情况进行处理。同时建立多个模型也会大大增加识别的时间复杂度。最后一点,传统方法在训练过程中需要大量文本数据,所以模型过于依赖训练文本集的大小。已有的命名实体识别模型在训练样本上花费的时间太大。目前中文命名实体的识别中对简单实体识别效果较好,对复杂实体,尤其是对于嵌套的复杂实体,识别效率和准确率较低。本专利技术项目组对国内外专利文献和公开发表的期刊论文检索,再尚未发现与本专利技术密切相关和一样的报道或文献。
技术实现思路
本专利技术是一种基于统计模型的命名实体识别方法,主要是对Web文档进行预处理,为后面的信息抽取,机器翻译和问答系统提供了基本保障。本专利技术主要针对Web上的命名实体利用统计模型进行命名实体识别。本专利技术要解决的主要问题是现有Web中文命名实体的识别,尤其是对复杂实体的识别精度不够高,不够准的问题,。下面对本专利技术进行详细说明本专利技术是一种,其特征在于所述方法包括以下步骤A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上,为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-WeIch算法计算初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的kick-off模型引入GHMM模型的计算中,采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E. MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注;第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。在现有方法中,一般采用单一文本特征来进行实体的特征描述,同时模型的建立只是针对单独实体。已有的命名实体识别模型在训练样本上花费的时间太大。本专利技术针对 GHMM统计模型的最大概率求解进行了改进,从而来优化训练的效率。另一方面针对Web实体的特点,采用实体的结构特征和文本特征来进行Web命名实体的多特征表示,提高识别精度。本专利技术的实现还在于步骤B中的命名实体特征提取包括如下步骤Bi.首先对网页进行Web命名实体的显示风格表示,形成结构特征矢量^s ;B2.再对网页的Web命名实体进行文本特征表示,将文本特征转换为一个有限的特征矢量;B3.根据样本数据进行训练,使用MFVSM进行Web页面的各命名实体的多特征矢量特征表示:F, =[F,%F;],实现命名实体的特征提取。本专利技术将Web文本的结构特征和文本特征相结合进行实体的多特征表示,从而能够更全面的表示出Web文本中实体的特征。为后续实体识别打好基础。本专利技术的实现还在于所述步骤C中的建立MR-GHMM模型包括如下步骤Cl.计算MR-GHMM模型的参数;C2.根据特征库中建立好的特征表示,对原始预料进行训练,得到命名实体的转移概率,从而得到模型的概率P ;C3.对于给定模型λ,找出使P(0,Q| λ)最大的状态转移序列Q。HMM是一种在自然语言处理领域中被广泛应用的统计模型。将其扩展为广义隐马尔科夫模型GHMM从而考虑更多的特征表示,从而更加适合于中文命名实体识别中的人名识别、地名识别以及机构名识别等复杂多特征实体的识别。本专利技术的实现还在于所述步骤D中的Web命名实体的识别包括如下步骤Dl.用Viterbi算法进行特征词自动标注,即从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果;D2.对于P(Tn)的计算采用基于概率统计的自然语言处理(n-gram语言模型),计算一个句子Tn= (ti;t2,……,tm)的概率本文档来自技高网
...

【技术保护点】
1.一种基于统计模型的Web命名实体识别方法,其特征在于:所述方法包括以下步骤:A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上,为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-Welch算法计算模型的初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的back-off模型引入GHMM模型的计算中,采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E.MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注;第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。

【技术特征摘要】
1.一种基于统计模型的Web命名实体识别方法,其特征在于所述方法包括以下步骤A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上, 为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用 MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-Welch算法计算模型的初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的back-off模型引入GHMM模型的计算中, 采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E.MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注; 第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。2.根据权利要求1所述的基于统计模型的Web命名实体识别方法,其特征在于所述步骤1. 2中的命名实体特征提取包括如下步骤Bi.首先对网页进行Web命名实体的显示风格表示,形成结构特征矢量厂‘; B2.再对网页的Web命名实体进行文本特征表示,...

【专利技术属性】
技术研发人员:王静刘志镜曲建铭王燕贺文华王炜华王纵虎陈东辉姚勇朱旭东赵辉
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:87

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1