一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法技术

技术编号：17667603 阅读：84 留言：0更新日期：2018-04-11 05:55

本发明专利技术涉及基于柬汉词对齐语料构建柬埔寨语依存树库的方法，属自然语言处理领域。本发明专利技术先构建柬汉词对齐平行语料库，在构建柬汉词对齐平行料库时先使用GIZA++进行词对齐，但由于GIZA++会出现数据稀疏的问题，再使用双语词典的模糊匹配和词向量词相似性比较的方法提高词对齐的准确率；柬汉词对齐语料库构建完成后再构建中文依存树语料库；结合柬汉词对齐语料库和中文依存树语料库进而构建柬语依存树语料库，再经过人工调整得到最终的柬语依存树语料库。本发明专利技术中构建依存树库的方法简化了人工标注柬埔寨语句子依存关系的过程，节省大量时间，采用双语词典匹配和词向量相似性法构建双语词对齐语料库可以有效的提高依存树库的准确率。

A method of constructing Kampuchea language dependency tree base based on Cambodian word aligned corpus

全部详细技术资料下载

【技术实现步骤摘要】
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法
本专利技术涉及一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，属于自然语言处理

技术介绍
柬语依存树库的构建是柬语与汉语互译工作中的重要环节，对柬语的研究也有着至关重要的作用。当前，我国与东南亚地区的政治，经济交流越发频繁，柬埔寨作为东南亚地区的重要国家，其与我国之间的关系也颇为密切，所以对柬语的研究工作对于两国交流也显得十分重要。柬语句法分析和柬语依存树库构建在研究柬语的工作中占有很大的地位。良好的柬语依存标注体系和柬语依存树库可以对柬汉互译工作和柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用有很大的提高。
技术实现思路
本专利技术提供了一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，用于解决现有柬语依存树库不完善，柬语句对依存关系难以分析等问题。本专利技术的技术方案是：一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，所述方法的具体步骤如下：Step1、构建柬汉词对齐平行语料库；Step1.1、收集柬汉平行句对；Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练；Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配；Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词，采用词向量相似度比较方法处理用于提高词对齐准确率；其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较；Step2、构建中文依存树语料库；Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理；Step2.2、对处理后的中文语料...
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法

【技术保护点】
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，其特征在于：所述方法的具体步骤如下：Step1、构建柬汉词对齐平行语料库；Step1.1、收集柬汉平行句对；Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练；Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配；Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词，采用词向量相似度比较方法处理用于提高词对齐准确率；其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较；Step2、构建中文依存树语料库；Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理；Step2.2、对处理后的中文语料进行词性标注处理；Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库，同时得到中文依存关系；Step3、结合柬汉词对齐平行语料库和中文依存树语料库，构建柬语依存树语料库；Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去，从而得到柬语依存树库；Step3.2、根据柬语依存树库构建柬语句子依存关系，依据柬语句...

【技术特征摘要】
1.一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法，其特征在于：所述方法的具体步骤如下：Step1、构建柬汉词对齐平行语料库；Step1.1、收集柬汉平行句对；Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练；Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配；Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词，采用词向量相似度比较方法处理用于提高词对齐准确率；其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较；Step2、构建中文依存树语料库；Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理；Step2.2、对处理后的中文语料进行词性标注处理；Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库，同时得到中文依存关系；Step3、结合柬汉词对齐平行语料库和中文依存树语料库，构建柬语依存树语料库；Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去，从而得到柬语依存树库；Step3.2、根据柬语依存树库构建柬语句子依存关系，依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整，再经过人工校正，得到最终的柬语依存树库。2.根据权利要求1所述的基于柬汉词对齐语料构建柬埔寨语依存树库的方法，其特征在于：所述步骤Step1.3中通过双语词典对稀疏数据进行词典的模糊匹配的具体步骤如下：Step1.3.1、找出词对齐后的稀疏数据，即任意一个不能与柬语有对齐关系的汉语词；Step1.3.2、结合柬汉词典进行基于双语词典的模糊匹配词对齐，在柬埔寨词的译文集合中去计算与原句对中无法对齐汉语词的相似度最大的那一个译文，表示如下：该式中c1和c2分别表示原句对中与词典译文中的汉语词，|c1∩c2|为c1和c2所含的公共字的个数，|c1|和|c2|分别为c1和c2所含字数，Sim(c1,c2)为汉语词c1，c2的模糊匹配相似度；由此可定义，柬埔寨词k和原句对中汉语词c的匹配相似度如下所示：Sim(k,c)＝maxSim(d,c)其中，d∈DTk，DTk为柬埔寨词k的所有汉语译文集合，Sim(d,c)为柬语词k的汉语译文分别与汉语词c的相似度，max为取最大值函数，Sim(k,c)为柬埔寨词k和汉语词c的匹配相似度，为了得到匹配相似度满足对齐条件的柬埔寨单词，设置阈值θ，且

【专利技术属性】
技术研发人员：严馨，李思远，郭剑毅，周枫，王红斌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人