一种基于MST算法的越南语依存树库构建方法技术

技术编号:13290634 阅读:52 留言:0更新日期:2016-07-09 09:13
本发明专利技术涉及一种基于MST算法的越南语依存树库构建方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先构建越南语依存树库训练语料库;再利用越南语依存树库训练语料库的语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;对得到的越南语依存树库语料库进行校正。本发明专利技术所构建的越南语依存树库对越南语语言的句法分析、机器翻译及息获取等上层应用能提供有力支撑;可以构建10万句越南语依存树库;本发明专利技术的方法避免了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;本发明专利技术的方法相比采用CRFParser和借助汉‑越双语词对齐语料构建越南语依存树库方法准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及一种基于MST算法的越南语依存树库构建方法,属于自然语言处理

技术介绍
越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此,针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中,越南语的句法分析是十分重要的基础工作。完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树;而浅层句法分析不要求得到完全的句法分析树,只要求识别其中的某些结构相对简单的成分,即它将句法分析分解为两个子任务:语块的识别和分析;语块之间的依附关系分析。由于采用完全句法分析难度相对比较大,因此浅层句法分析成为当前句法分析主流。依存句法分析属于浅层句法分析,也是器分析语言句法特征非常有效的方法之一。大规模越南语依存树库的构建,已经成为整个越南语依存分析的核心工作,如果能对该问题加以有效合理的解决,将对汉-越双语的双向翻译和信息检索提供有力的支撑。
技术实现思路
本专利技术提供了一种基于MST算法的越南语依存树库构建方法,以解决人工标注越南语依存树库耗时费力的难题,弥补大规模越南语依存树库稀缺的问题,本专利技术提出的越南语依存树库构建方法对将对汉-越双语的双向翻译和信息检索提供有力的支撑。本专利技术的技术方案是:一种基于MST算法的越南语依存树库构建方法,所述基于MST算法的越南语依存树库构建方法的具体步骤如下:Step1、首先构建越南语依存树库训练语料库;所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;所述步骤Step2中,利用MST模型训练越南语句子得到越南语依存树库的具体步骤为:Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;Step2.2、利用MST模型训练越南语句子得到越南语依存树库。Step3、对得到的越南语依存树库语料库进行校正。所述步骤Step3中,利用依存关系校正器对得到的越南语依存树库的语料进行校正的具体步骤为:Step3.1、首先分析总结依存树库中存在的错误的分类,然后将这些错误进行分析和整理,为后面的校正做准备;Step3.2、利用依存关系校正器对越南语依存树库进行校正,最后得到高质量规模的越南语依存树库。本专利技术的有益效果是:1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;2、构建了10万句越南语依存树库;3、本专利技术提出的构建依存树的方法省略了人工标注越南语依存树库的过程,大大的节省了人力和构建树库的时间;4、本专利技术提出的构建依存树的方法在语料规模较大的情况下相比采用借助汉-越双语词对齐语料构建越南语依存树库的方法准确率明显提高。附图说明图1是本专利技术中的流程图;图2是本专利技术的中文依存关系示意图;图3是本专利技术越南语依存关系构建过程示意图。具体实施方式实施例1:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:Step1、首先构建越南语依存树库训练语料库;Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;Step3、对得到的越南语依存树库语料进行校正。实施例2:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:Step1、首先构建越南语依存树库训练语料库;Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;Step3、对得到的越南语依存树库语料进行校正。所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。实施例3:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:Step1、首先构建越南语依存树库训练语料库;Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;Step3、对得到的越南语依存树库语料进行校正。所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。所述步骤Step2的具体步骤为:Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;Step2.2、利用MST模型训练越南语句子得到越南语依存树库。实施例4:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:Step1、首先构建越南语依存树库训练语料库;Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;Step3、利用依存关系校正器对得到的越南语依存树库的语料进行校正。所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。所述步骤Step2的具体步骤为:Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;Step2.2、利用MST模型本文档来自技高网...

【技术保护点】
一种基于MST算法的越南语依存树库构建方法,其特征在于:所述基于MST算法的越南语依存树库构建方法的具体步骤如下:Step1、首先构建越南语依存树库训练语料库;Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;Step3、对得到的越南语依存树库语料库进行校正。

【技术特征摘要】
1.一种基于MST算法的越南语依存树库构建方法,其特征在于:所述基于MST算法的
越南语依存树库构建方法的具体步骤如下:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模
型训练越南语句子得到越南语依存树库;
Step3、对得到的越南语依存树库语料库进行校正。
2.根据权利要求1所述的基于MST算法的越南语依存树库构建方法,其特征在于:所
述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料
库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映
射到越南语的句子中去,从而得到越南语依存树库训练语料库。
3.根据...

【专利技术属性】
技术研发人员:郭剑毅李发杰余正涛线岩团毛存礼文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1