【技术实现步骤摘要】
本专利技术属于自然语言处理
,主要涉及Web信息抽取领域,尤其涉及Web命名实体识别。具体是一种,主要用来识别出Web命名实体,实现对网页信息的获取以及预处理。
技术介绍
Web命名实体识别技术主要针对Web页面的信息进行最基本数据的获取。通过获得数据从而能对网页的内容进行识别,也为后续的各种应用如信息抽取、自动问答、及其翻译等都需要命名实体识别技术的支撑,这也是自然语言处理中一项基本工作。在网络技术飞速发展,并广泛应用于各个领域的当今,对它的研究非常重要。一般来说,命名实体识别就是对一篇或多篇待处理的文本,识别出其中出现的命名实体,比如人名、地名、机构名、 时间日期、数字等。目前,对英文命名实体识别已经取得了很好的效果,对它的研究与开发主要集中在学习领域,包括隐马尔可夫模型、最大熵模型和支持向量机等,一些系统已经可以实际应用。在第七届信息理解会议(MUC-7)时,最好的英文命名实体识别系统已经达到了 95%的查全率和92 %的查准率。与英文命名实体识别相比,中文命名实体识别的效果还差很多。 第二届多语种实体评价会议(MET-2)时,最好的中文命名实体识别系统在人名、地名、机构名的查准率分别为66、89、89%,查全率分别为92、91、88%。目前中文命名实体识别从方法上来说,主要是基于规则和统计这两种方法。基于规则的方法一般采用特征字或特征词触发的方式来进行命名实体识别。基于统计的方法主要通过,对大规模语料库命名实体及其上下文进行统计分析,构建统计模型进行命名实体识别。早期的中文命名实体识别模型包含数个子模型,每个子模型处理某一类实体,如对人名的 ...
【技术保护点】
1.一种基于统计模型的Web命名实体识别方法,其特征在于:所述方法包括以下步骤:A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上,为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-Welch算法计算模型的初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的back-off模型引入GHMM模型的计算中,采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E.MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注;第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。
【技术特征摘要】
1.一种基于统计模型的Web命名实体识别方法,其特征在于所述方法包括以下步骤A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上, 为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用 MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-Welch算法计算模型的初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的back-off模型引入GHMM模型的计算中, 采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E.MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注; 第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。2.根据权利要求1所述的基于统计模型的Web命名实体识别方法,其特征在于所述步骤1. 2中的命名实体特征提取包括如下步骤Bi.首先对网页进行Web命名实体的显示风格表示,形成结构特征矢量厂‘; B2.再对网页的Web命名实体进行文本特征表示,...
【专利技术属性】
技术研发人员:王静,刘志镜,曲建铭,王燕,贺文华,王炜华,王纵虎,陈东辉,姚勇,朱旭东,赵辉,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:87
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。