基于组块的越南语短语树构建方法技术

技术编号:14116038 阅读:119 留言:0更新日期:2016-12-07 18:30
本发明专利技术涉及基于组块的越南语短语树构建方法,属于自然语言处理技术领域。本发明专利技术首先对越南语短语树标注集进行上层组块和基层组块标注;选取上层组块和基层组块的特征集,再构建基于组块的越南语短语树库构建模型;利用组块分析工具对分词后的越南语句子进行组块分析,得到基于组块构建的初级越南语短语树库;利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。本发明专利技术避免了人工收集和标注越南语短语树库的过程,节省了人力和构建树库的时间;本发明专利技术提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及基于组块的越南语短语树构建方法,属于自然语言处理

技术介绍
短语树库的分析与构建对于语言学的研究有着非常重要的作用,例如句法模式的抽取以及语言现象的调查等;同时它通常被用来训练分词工具、句法分析器和语义角色标注器等体系,这些体系又是信息抽取、机器翻译、问答系统以及文本分类等应用的基础。近年来,随着机器学习方法和人工智能的快速发展,短语树库的自动构建变得越来越重要。短语句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系(Allen1995),将句子转化为一棵结构化的语法树。短语树由终结符、非终结符以及短语标记这三种符号按照特定的语法规则构成。根据语法规则,若干终结符构成一个短语,作为非终结符参与下一次归约,直至将整个句子归约为根节点。针对越南语短语树库的研究很少。目前针对越南语的研究主要包含有:Nguyen C T,Nguyen T K(2006)等人利用CRF与SVM构建越南语分词模型,完成了越南语的分词工作;Le H P,Nguyen T M H,Romary L(2006)等人提出针对越南的词汇化链接文法,但并没有讲这个文法利用在短语树的构建上;Nguyen P T,Vu X L,Nguyen T M H(2009)等人简单介绍了一下构建越南语句法树的研究思路,但并没有给出构建结果;Dinh Dien,Thuy Ngan,Xuan Quang(2009)等人通过构建英语-越南语平行句法树进行双语机器翻译,在这个过程中所构建的越南语句法树也存在许多问题,例如英语与越南语不能一一对应,导致越南语句法树准确率非常低。针对越南语短语树库的缺乏以及构建困难的问题,本专利技术提供了一种新的基于组块的越南语短语树构建方法。该法能自动分析出越南语的短语结构树,解决了越南语短语树库的构建问题。本专利技术构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑。
技术实现思路
本专利技术提供了基于组块的越南语短语树构建方法,以用于解决人工标注越南语短语树库比较困难的问题,构建规模较大的越南语短语树库不便的问题,以及传统构建越南语树库方法准确率低、耗时长的问题。本专利技术提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。同时本专利技术构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑。本专利技术的技术方案是:基于组块的越南语短语树构建方法,所述基于组块的越南语短语树构建方法的具体步骤如下:Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;利用这种方法所获取的训练语料的准确率比较高,从而使的利用该训练语料获取的特征集更加准确;Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;采用改进后的CRF模型所构建出越南语短语树库构建模型,针对越南语短语树库的构建效果更好,质量更高;Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;采用基于组块的越南语短语树库构建模型进行越南语短语树库的构建相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。对初级越南语短语树库进行进一步的校正保证获取的终级越南语短语树库的质量,能够为机器翻译,信息抽取等上层应用提供语料支撑。作为本专利技术的优选方案,所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:Step1.1、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体系,制定越南语短语树的标注集;Step1.2、结合上层组块和基层组块标的定义完成对越南语短语树的标注集的上层组块和基层组块标注;Step1.3、将标注得到的有上层组块和基层组块组成的越南语短语树作为训练语料。作为本专利技术的优选方案,所述步骤Step2的具体步骤如下:Step2.1、依据训练语料对CRF模型进行调整,训练出改进后的CRF模型;Step2.2、选取设定上层组块和基层组块的特征集;Step2.3、利用选取设定上层组块和基层组块的特征集以及改进后的CRF模型构建上层组块模型和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;作为本专利技术的优选方案,所述步骤Step3的具体步骤如下:Step3.1、对分词后的越南语句子进行组块分析,获取越南语组块语料;Step3.2、利用获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到基于组块构建的初级越南语短语树库。本专利技术的有益效果是:1、本专利技术提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。同时本专利技术构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑;2、构建了规模相对较大的越南语短语树语料库;3、本专利技术提出的构建短语树的方法省略了人工标注越南语短语树库的过程,大大的节省了人力和构建树库的时间。附图说明图1为本专利技术中的流程图。具体实施方式实施例1:如图1所示,基于组块的越南语短语树构建方法,所述基于组块的越南语短语树构建方法的具体步骤如下:Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;利用这种方法所获取的训练语料的准确率比较高,从而使的利用该训练语料获取的特征集更加准确;Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;采用改进后的CRF模型所构建出越南语短语树库构建模型,针对越南语短语树库的构建效果更好,质量更高;Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;采用基于组块的越南语短语树库构建模型进行越南语短语树库的构建相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。对初级越南语短语树库进行进一步的校正保证获取的终级越南语短语树库的质量,能够为机器翻译,信息抽取等上层应用提供语料支撑。实施例2:如图1所示,基于组块的越南语短语树构建方法,本实施例与实施例1相同,其中,作为本专利技术的优选方案,所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:Ste本文档来自技高网
...
基于组块的越南语短语树构建方法

【技术保护点】
基于组块的越南语短语树构建方法,其特征在于:所述基于组块的越南语短语树构建方法的具体步骤如下:Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。

【技术特征摘要】
1.基于组块的越南语短语树构建方法,其特征在于:所述基于组块的越南语短语树构建方法的具体步骤如下:Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。2.根据权利要求1所述的基于组块的越南语短语树构建方法,其特征在于:所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:Step1.1、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体...

【专利技术属性】
技术研发人员:郭剑毅李英余正涛线岩团毛存礼陈玮
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1