基于多模型优势互补策略的介词短语识别方法技术

技术编号:17363621 阅读:64 留言:0更新日期:2018-02-28 13:39
本发明专利技术涉及一种基于多模型优势互补策略的介词短语识别方法,包括以下步骤:对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。本发明专利技术根据介词及介词短语的特点提出了基于多模型优势互补的介词短语识别策略,通过十折交叉验证方法和对比实验也证明了本方法的有效性和适用性,进一步提高了介词短语的识别效果。

A prepositional phrase recognition method based on multi model superiority complementary strategy

The invention relates to a method of prepositional phrase identification strategy based on multiple model complementary advantages, including the following steps: classifying the prepositional phrase, according to the classification of the preposition context feature, sentence position and characteristics of prepositional phrases, characteristics of prepositional phrases are analyzed and summarized, location characteristics of different categories corresponding to the combination position; according to the different characteristics of different categories, using conditional random field model of prepositional phrase identification, selection of training corpus characteristics; in the choice of the training corpus features training multiple prepositional phrase identification model, will identify each preposition in the sentence of the results are combined to get the final results. According to the characteristics of prepositions and prepositional phrases of prepositional phrase identification strategy based on multiple model complementary advantages, through ten fold cross validation method and the experiment also proves the validity and applicability of this method, further improve the prepositional phrase recognition effect.

【技术实现步骤摘要】
基于多模型优势互补策略的介词短语识别方法
本专利技术涉及一种自然语言处理技术,具体为一种基于多模型优势互补策略的介词短语识别方法。
技术介绍
介词属于虚词,是一个相对封闭的类,在北大俞士汶[1]主编的《现代汉语语法信息词典详解》中列出了一个介词表,表中共有介词85个。介词短语(PrepositionPhrase,以下简称PP)由两部分构成:前边部分是介词,后边部分是跟介词结合在一起的实词或短语。根据PP的组成,PP的左边边界肯定是介词,所以说对于介词短语识别问题主要集中在右边界确定上。PP的用途主要是在句子里做定语、状语、补语[2],所以PP的正确识别有助于句子框架(主语,谓语,宾语)的识别。由于介词短语所充当的句子成分不同,造成充当不同成分的介词短语右边界词的右临界词有明显的差异(详细分析见本文的第三节)。所以本文对介词短语进行分类,不同类别选取不同特征并采用机器算法训练多个模型,提出多模型优势互补策略对介词短语识别进行融合。目前PP识别的主流方法有两种,一是统计的方法,二是统计与规则相结合的方法。基于统计的方法以机器学习模型为主。于浚涛等采用最大熵(ME)对进行PP识别;温苗苗等[4]利用支持向量机模型(SVM);朱丹浩等等采用条件随机场模型;张坤丽等等利用《人民日报》为实验语料,分别采用SVM、ME和条件随机场(CRF)这3种统计模型对出现频次高于20次的61个介词进行了PP识别并进行了对比,结果是CRF的识别效果比较好。张灵等采用基于搭配的特征对PP识别,在其论文中以CRF为识别模型把介词和PP的右边界词共同作为特征并采用反向(对句子从右自左)扫描方法进行识别,该方法使PP的识别结果得到了较大提升。在统计与规则相结合的方法中,规则通常作为统计识别结果的后处理方法以校正统计识别结果的部分错误。奚建清等等提出了一种基于隐马尔可夫模型(HMM)的PP识别,然后利用依存语法知识对HMM自动PP识别的边界结果进行校正。卢朝华等等采用基于ME的统计模型,在基于ME的PP自动识别后再加入依存语法知识进行错误校正。卢朝华等利用ME和汉语PP左右边界词语的依存语法知识相结合的方法,对PP右边界的错误识别进行校正。胡思磊等运用统计和规则相结合的方法,基于提出了一种基于CRF层次结构识别PP的方法,实验融合可信搭配关系、候选后界、候选后词、介词多种特征进行统计决策并加入22条规则进行修正。宋贵哲等采用CRF进行汉语句子的PP识别研究,提出了基于CRFs的分布式策略和双层CRF模型相结合的PP识别方法,最后利用PP的语法规则进行后处理。利用机器学习(MachineLearning,以下简称ML)模型进行PP识别,特征选择是至关重要的。因为当ML模型相同时,选取不同的特征会得到不同的识别结果。目前所公开的基于机器学习的介词短语识别方法都没有对介词短语按上下文特征进行分类,导致所有类别都采用同样统计模型进行识别。
技术实现思路
针对现有技术中基于机器学习的介词短语识别方法都没有对介词短语按上下文特征进行分类,导致所有类别都采用同样统计模型进行识别等不足,本专利技术要解决的问题是提供一种可进一步提高介词短语的识别效果的基于多模型优势互补策略的介词短语识别方法。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术一种基于多模型优势互补策略的介词短语识别方法,包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“V+介词+NP”。针对不同的类别选择不同的特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征为:201)针对不同的类别选择不同的特征组合,训练多个PP识别模型,对识别的标注集进行选择;202)根据选择的标注集生成多模型优势互补表,基于优势互补表对多个模型的识别结果进融合;203)根据多模型优势互补表选择介词对应模型的识别结果。步骤204),将语料分为训练集,开发集和测试集。训练集用来训练模型,开发集用来调试参数,测试集用来测试。基于优势互补表对多个模型的识别结果进融合包括以下过程:首先分析不同类型的介词短语的上下文位置特征,然后训练多个模型,再生成多模型优势互补策略,即基于优势互补表对多个模型的识别结果进行优势整合。优势互补表通过以下步骤生成:基于特征组合对训练语料训练3个模型,然后用这3个模型同时在测试集上做测试,再针对3个模型的结果进行分析,并生成优势互补表。本专利技术具有以下有益效果及优点:1.本专利技术根据介词及介词短语的特点提出了基于多模型优势互补的介词短语识别策略,通过十折交叉验证方法和对比实验也证明了本方法的有效性和适用性。2.对于汉语句子来说,尤其是介词短语句法作用的多样性及构成的复杂性,采用本专利技术方法,不仅可以将长句缩短为短句还能将嵌套简化为单层,减少错误累积,同时融合多模型各自的优点,进一步提高了介词短语的识别效果。附图说明图1为本专利技术方法中多模型优势互补策略系统图。具体实施方式下面结合说明书附图对本专利技术作进一步阐述。如图1所示,本专利技术一种基于多模型优势互补策略的介词短语识别方法,在对介词短语(PP)充分分析的基础上,针对介词短语的特点提出基于多模型优势互补策略对PP进行识别。包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得不同类别对应的位置特征;2)针对不同的类别选择不同的特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。本专利技术采用条件随机场模型(CRF)对介词短语进行识别,所以要选择训练语料的特征。本专利技术对介词短语进行分类,针对不同的类别选择不同的特征组合,然后训练多个介词短语识别模型。首先,根据上下文特征对介词进行分类。介词是一个相对封闭的类,绝对数量有限,但是介词在汉语语法体系中却占有重要的地位。介词的定义方式与其他词类的不同,介词主要是附着于其他词语之前构成介词短语,在汉语句子中充当修饰成分,可以作状语、定语、补语等成分。介词短语充当的成分不同,在句子中的所处位置也会有所不同,并且具有对应的位置特征。对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“V+介词+NP”。步骤101)中,介词短语的主要句法功能是作状语。作状语时,不本文档来自技高网
...
基于多模型优势互补策略的介词短语识别方法

【技术保护点】
一种基于多模型优势互补策略的介词短语识别方法,其特征在于包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。

【技术特征摘要】
1.一种基于多模型优势互补策略的介词短语识别方法,其特征在于包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。2.根据权利要求1所述的基于多模型优势互补策略的介词短语识别方法,其特征在于对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“V+介词+NP”。3.根据权利要求1所述的基于多模型优势互补策略的介词短语识别方法,其特征在于针对不同的类别选择不同的特征组合,采...

【专利技术属性】
技术研发人员:周俏丽
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1