The invention relates to a method of prepositional phrase identification strategy based on multiple model complementary advantages, including the following steps: classifying the prepositional phrase, according to the classification of the preposition context feature, sentence position and characteristics of prepositional phrases, characteristics of prepositional phrases are analyzed and summarized, location characteristics of different categories corresponding to the combination position; according to the different characteristics of different categories, using conditional random field model of prepositional phrase identification, selection of training corpus characteristics; in the choice of the training corpus features training multiple prepositional phrase identification model, will identify each preposition in the sentence of the results are combined to get the final results. According to the characteristics of prepositions and prepositional phrases of prepositional phrase identification strategy based on multiple model complementary advantages, through ten fold cross validation method and the experiment also proves the validity and applicability of this method, further improve the prepositional phrase recognition effect.
【技术实现步骤摘要】
基于多模型优势互补策略的介词短语识别方法
本专利技术涉及一种自然语言处理技术,具体为一种基于多模型优势互补策略的介词短语识别方法。
技术介绍
介词属于虚词,是一个相对封闭的类,在北大俞士汶[1]主编的《现代汉语语法信息词典详解》中列出了一个介词表,表中共有介词85个。介词短语(PrepositionPhrase,以下简称PP)由两部分构成:前边部分是介词,后边部分是跟介词结合在一起的实词或短语。根据PP的组成,PP的左边边界肯定是介词,所以说对于介词短语识别问题主要集中在右边界确定上。PP的用途主要是在句子里做定语、状语、补语[2],所以PP的正确识别有助于句子框架(主语,谓语,宾语)的识别。由于介词短语所充当的句子成分不同,造成充当不同成分的介词短语右边界词的右临界词有明显的差异(详细分析见本文的第三节)。所以本文对介词短语进行分类,不同类别选取不同特征并采用机器算法训练多个模型,提出多模型优势互补策略对介词短语识别进行融合。目前PP识别的主流方法有两种,一是统计的方法,二是统计与规则相结合的方法。基于统计的方法以机器学习模型为主。于浚涛等采用最大熵(ME)对进行PP识别;温苗苗等[4]利用支持向量机模型(SVM);朱丹浩等等采用条件随机场模型;张坤丽等等利用《人民日报》为实验语料,分别采用SVM、ME和条件随机场(CRF)这3种统计模型对出现频次高于20次的61个介词进行了PP识别并进行了对比,结果是CRF的识别效果比较好。张灵等采用基于搭配的特征对PP识别,在其论文中以CRF为识别模型把介词和PP的右边界词共同作为特征并采用反向(对句子从右自左)扫描 ...
【技术保护点】
一种基于多模型优势互补策略的介词短语识别方法,其特征在于包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。
【技术特征摘要】
1.一种基于多模型优势互补策略的介词短语识别方法,其特征在于包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。2.根据权利要求1所述的基于多模型优势互补策略的介词短语识别方法,其特征在于对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“V+介词+NP”。3.根据权利要求1所述的基于多模型优势互补策略的介词短语识别方法,其特征在于针对不同的类别选择不同的特征组合,采...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。