一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法技术

技术编号:17667603 阅读:84 留言:0更新日期:2018-04-11 05:55
本发明专利技术涉及基于柬汉词对齐语料构建柬埔寨语依存树库的方法,属自然语言处理领域。本发明专利技术先构建柬汉词对齐平行语料库,在构建柬汉词对齐平行料库时先使用GIZA++进行词对齐,但由于GIZA++会出现数据稀疏的问题,再使用双语词典的模糊匹配和词向量词相似性比较的方法提高词对齐的准确率;柬汉词对齐语料库构建完成后再构建中文依存树语料库;结合柬汉词对齐语料库和中文依存树语料库进而构建柬语依存树语料库,再经过人工调整得到最终的柬语依存树语料库。本发明专利技术中构建依存树库的方法简化了人工标注柬埔寨语句子依存关系的过程,节省大量时间,采用双语词典匹配和词向量相似性法构建双语词对齐语料库可以有效的提高依存树库的准确率。

A method of constructing Kampuchea language dependency tree base based on Cambodian word aligned corpus

【技术实现步骤摘要】
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法
本专利技术涉及一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,属于自然语言处理

技术介绍
柬语依存树库的构建是柬语与汉语互译工作中的重要环节,对柬语的研究也有着至关重要的作用。当前,我国与东南亚地区的政治,经济交流越发频繁,柬埔寨作为东南亚地区的重要国家,其与我国之间的关系也颇为密切,所以对柬语的研究工作对于两国交流也显得十分重要。柬语句法分析和柬语依存树库构建在研究柬语的工作中占有很大的地位。良好的柬语依存标注体系和柬语依存树库可以对柬汉互译工作和柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用有很大的提高。
技术实现思路
本专利技术提供了一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,用于解决现有柬语依存树库不完善,柬语句对依存关系难以分析等问题。本专利技术的技术方案是:一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,所述方法的具体步骤如下:Step1、构建柬汉词对齐平行语料库;Step1.1、收集柬汉平行句对;Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练;Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配;Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词,采用词向量相似度比较方法处理用于提高词对齐准确率;其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较;Step2、构建中文依存树语料库;Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理;Step2.2、对处理后的中文语料进行词性标注处理;Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库,同时得到中文依存关系;Step3、结合柬汉词对齐平行语料库和中文依存树语料库,构建柬语依存树语料库;Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去,从而得到柬语依存树库;Step3.2、根据柬语依存树库构建柬语句子依存关系,依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整,再经过人工校正,得到最终的柬语依存树库。所述步骤Step1.3中通过双语词典对稀疏数据进行词典的模糊匹配的具体步骤如下:Step1.3.1、找出词对齐后的稀疏数据,即任意一个不能与柬语有对齐关系的汉语词;Step1.3.2、结合柬汉词典进行基于双语词典的模糊匹配词对齐,在柬埔寨词的译文集合中去计算与原句对中无法对齐汉语词的相似度最大的那一个译文,表示如下:该式中c1和c2分别表示原句对中与词典译文中的汉语词,|c1∩c2|为c1和c2所含的公共字的个数,|c1|和|c2|分别为c1和c2所含字数,Sim(c1,c2)为汉语词c1,c2的模糊匹配相似度;由此可定义,柬埔寨词k和原句对中汉语词c的匹配相似度如下所示:Sim(k,c)=maxSim(d,c)其中,d∈DTk,DTk为柬埔寨词k的所有汉语译文集合,Sim(d,c)为柬语词k的汉语译文分别与汉语词c的相似度,max为取最大值函数,Sim(k,c)为柬埔寨词k和汉语词c的匹配相似度,为了得到匹配相似度满足对齐条件的柬埔寨单词,设置阈值θ,且式中左边为柬埔寨词k与汉语词c的对齐函数,取值为1和0;其中1表示柬语词k与原句对中汉语词c语义相近,可以匹配对齐;0表示柬语词k与原句对中汉语词c语义无关,无法匹配对齐。所述步骤Step1.4的具体步骤如下:Step1.4.1、通过word2vec进行汉语语料训练,得到汉语单词词向量;Step1.4.2、训练完成后,将原句对中无法对齐的汉语词的词向量w1与原句对中无法对齐的柬语词的汉语译文所对应的词向量w2进行相似度计算,两个词向量w1,w2的相似度如下表示:其中,词向量w1,w2为多维向量,共有n维,w1i,w2i中的i为向量的维数,且{i=1,2,…,n};原句对无法对齐的柬埔寨词k和原句对中无法对齐的汉语词c的匹配相似度如下所示:Sim(k,c)=maxSim(w1,w2)其中,w1为汉语词c的词向量,w2为柬埔寨词k的汉语译文的词向量,maxSim(w1,w2)为取最大值函数,表示在无法对齐的柬语词k的所有中文译文中找到与原句对中无法对齐的汉语词c语义最相近的那个中文翻译词,该相似度最大值即为Sim(k,c),表示柬埔寨词k和汉语词c的匹配相似度;为了得到相似度满足对齐条件的两个词向量,设置一个阈值为α,式中左边为柬埔寨词k与汉语词c的对齐函数,取值为1和0;其中1表示柬语词k与原句对中汉语词c语义相近,可以匹配对齐;0表示柬语词k与原句对中汉语词c语义无关,无法匹配对齐;若原句对中一个无法对齐的汉语词与原句对中无法对齐的多个柬语词的匹配相似度同时满足阈值条件时,即将该汉语词c1分别与柬语词k1,k2,…kn对齐。本专利技术的有益效果是:本专利技术通过GIZA++,并创新性的引入词典模糊匹配以及词向量相似性匹配几种方法相结合构建了高准确率的柬汉双语平行词对齐语料库。所提出的构建依存树库的方法简化了人工标注柬埔寨语句子依存关系的过程,节省了大量时间。最终有效的提高了所构建柬埔寨依存树库的准确率。附图说明图1为本专利技术中构建柬埔寨语依存树库总的流程图;图2位本专利技术的中文依存关系示意图;图3为本专利技术的柬埔寨语依存关系构建过程示意图。具体实施方式实施例1:如图1-3所示,一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,所述方法的具体步骤如下:Step1、构建柬汉词对齐平行语料库;Step1.1、收集柬汉平行句对;Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练;Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配;Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词,采用词向量相似度比较方法处理用于提高词对齐准确率;其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较;Step2、构建中文依存树语料库;Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理;Step2.2、对处理后的中文语料进行词性标注处理;Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库,同时得到中文依存关系;如图2所示;Step3、结合柬汉词对齐平行语料库和中文依存树语料库,构建柬语依存树语料库;Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去,从而得到柬语依存树库;Step3.2、根据柬语依存树库构建柬语句子依存关系,依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整,再经过人工校正,得到最终的柬语依存树库。所述步骤Step1.3中通过双语词典对稀疏数据进行词典的模糊匹配的具体步骤如下:Step1.3.1、找出词对齐后的稀疏数据,即任意一个不能与柬语有对齐关系的汉语词;Step1.3.2、结合柬汉词典进行基于双语词典的模糊匹配词对齐,在柬埔寨词的译文集合中去计算与原句对中无法对齐汉语词的相似度最大的那一个译文,表示如下:该式中c1和c2分别表示原句对中与词典译文中的汉语词,|c1∩c2|为c1和c2所含的公共字的个本文档来自技高网...
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法

【技术保护点】
一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,其特征在于:所述方法的具体步骤如下:Step1、构建柬汉词对齐平行语料库;Step1.1、收集柬汉平行句对;Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练;Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配;Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词,采用词向量相似度比较方法处理用于提高词对齐准确率;其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较;Step2、构建中文依存树语料库;Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理;Step2.2、对处理后的中文语料进行词性标注处理;Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库,同时得到中文依存关系;Step3、结合柬汉词对齐平行语料库和中文依存树语料库,构建柬语依存树语料库;Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去,从而得到柬语依存树库;Step3.2、根据柬语依存树库构建柬语句子依存关系,依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整,再经过人工校正,得到最终的柬语依存树库。...

【技术特征摘要】
1.一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法,其特征在于:所述方法的具体步骤如下:Step1、构建柬汉词对齐平行语料库;Step1.1、收集柬汉平行句对;Step1.2、对柬汉平行句对使用GIZA++进行词对齐训练;Step1.3、通过双语词典对稀疏数据进行词典的模糊匹配;Step1.4、经过词典的模糊匹配后依然无法对齐的柬语词,采用词向量相似度比较方法处理用于提高词对齐准确率;其中词向量相似度比较是指将原句对中无法对齐的汉语词的词向量与原句对中无法对齐的柬语词的汉语译文所对应的词向量进行相似度比较;Step2、构建中文依存树语料库;Step2.1、对柬汉词对齐平行句对库进行中文句子分词处理;Step2.2、对处理后的中文语料进行词性标注处理;Step2.3、对词性标注后的中文语料采用LTP语言处理平台构建中文依存树库,同时得到中文依存关系;Step3、结合柬汉词对齐平行语料库和中文依存树语料库,构建柬语依存树语料库;Step3.1、把中文依存关系通过柬汉词对齐平行句对语料库映射到柬语的句子中去,从而得到柬语依存树库;Step3.2、根据柬语依存树库构建柬语句子依存关系,依据柬语句子依存关系中左右附加关系的变化对柬语句子依存关系进行调整,再经过人工校正,得到最终的柬语依存树库。2.根据权利要求1所述的基于柬汉词对齐语料构建柬埔寨语依存树库的方法,其特征在于:所述步骤Step1.3中通过双语词典对稀疏数据进行词典的模糊匹配的具体步骤如下:Step1.3.1、找出词对齐后的稀疏数据,即任意一个不能与柬语有对齐关系的汉语词;Step1.3.2、结合柬汉词典进行基于双语词典的模糊匹配词对齐,在柬埔寨词的译文集合中去计算与原句对中无法对齐汉语词的相似度最大的那一个译文,表示如下:该式中c1和c2分别表示原句对中与词典译文中的汉语词,|c1∩c2|为c1和c2所含的公共字的个数,|c1|和|c2|分别为c1和c2所含字数,Sim(c1,c2)为汉语词c1,c2的模糊匹配相似度;由此可定义,柬埔寨词k和原句对中汉语词c的匹配相似度如下所示:Sim(k,c)=maxSim(d,c)其中,d∈DTk,DTk为柬埔寨词k的所有汉语译文集合,Sim(d,c)为柬语词k的汉语译文分别与汉语词c的相似度,max为取最大值函数,Sim(k,c)为柬埔寨词k和汉语词c的匹配相似度,为了得到匹配相似度满足对齐条件的柬埔寨单词,设置阈值θ,且

【专利技术属性】
技术研发人员:严馨李思远郭剑毅周枫王红斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1