一种中英文片段语料生成方法技术

技术编号:17467260 阅读:36 留言:0更新日期:2018-03-15 04:51
本发明专利技术涉及机器翻译领域,尤其涉及一种中英文片段语料生成方法。包括分句处理、精确匹配、模糊匹配、修正词语对应关系、生成片段语料五个主要步骤。通过词性判断非实义词间隔找出复合词语对应关系,基于词对应关系和非实义词间隔判断提取片段。本发明专利技术提供的中英文片段语料生成方法,易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。

A method of generating Chinese and English fragments

The invention relates to the field of Machine Translation, in particular to a method of generating Chinese and English fragments. It includes five main steps, such as sentence processing, accurate matching, fuzzy matching, correction of word correspondence and generating fragment corpus. The correspondence relationship between the words and the non - real words is found through the interval of word judgment, and the fragments are extracted based on the relation of the words and the interval of the non - real words. The invention provides a method of Chinese and English fragment speech production, which is easy to realize and produces high accuracy of the fragment corpus. It is of great significance to improve the efficiency of machine aided translation.

【技术实现步骤摘要】
一种中英文片段语料生成方法
本专利技术涉及机器翻译领域,尤其涉及一种中英文片段语料生成方法。
技术介绍
随着信息技术的发展,国际交流日益频繁,准确理解不同语言成为了一个重要的需求。为解决不同语言之间人的沟通障碍,机器翻译,作为自然语言处理领域一个重要的方向,得到了越来越多的关注和发展,其中基于神经网络的机器翻译已经取代原有的基于统计的机器翻译成为了业界主流。无论是最新的基于神经网络的机器翻译还是过去的基于统计的机器翻译,大多基于语料库。现有的语料库一般包括单个词语语料和句子语料。在实际翻译工作中,单个词语语料类似于英汉词典,对于文章翻译,效率明显不够;而由于不同的翻译文章,完全相同的句子并不多,因此句子语料对于翻译的帮助作用有限。不同文中真正容易重复使用的往往是片段,片段是长度大于一个词语、小于一个句子的几个连续的词语的集合。片段语料则是中、英文片段的准确的互译文本。显然,片段语料对于翻译效率的提高有着重要的意义。然而,现有语料库缺乏针对片段的语料。
技术实现思路
本专利技术所要解决的技术问题是提供一种中英文片段语料生成方法,以生成片段语料。为解决上述技术问题,本专利技术提供一种中英文片段语料生成方法,包括以下步骤:步骤1、选取一对已翻译好的中英文句子;分别对所述英文、中文句子作分词处理;步骤2、根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系。步骤3、对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;步骤4、修正词语对应关系,即遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义;否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典;步骤5、生成片段语料,即设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词;如果当前片段包含中文词语超过2个,记录此片段;如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点;如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连续,继续。如果下一个单词不连续,记录不包含最后两个不连续单词的片段,重新开始设置片段起点;当中文词语遇到分句标点符号时,重新设置片段起点为下一个中文词语。中文句子遍历完成,得到一个个片段语料。优选的,对所述英文、中文句子作分词处理包括:英文句子分词:将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件,对英文句子进行词形还原处理,按照最大正向匹配法根据词典中单词对英文句子进行分词;中文句子分词:选用中文分词器对中文句子进行分词。进一步的,所述中文分词器具有新词发现功能。步骤2所述的根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系具体包括:以分词处理后的英文为对象,从第一个实词开始,根据该英文单词的英汉词典中文释义查找中文句子中出现的词语,如果出现某中文词语与该英文单词的释义相同的,则记录英语单词和该中文词语的对应关系;继续下一个英文实词,直到最后一个单词。优选的,所述相似度设定阈值为20%。进一步的,选择更多的已翻译好的中英文句子对,重复上述步骤1至步骤5,得到足够多的片段语料。本专利技术提供了一种中英文片段语料生成方法,以生成片段语料。该方法易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。附图说明下面结合附图和具体实施方式对本专利技术的技术方案作进一步具体说明。图1为本专利技术的整体流程图。具体实施方式结合图1所示,本专利技术具体包括以下步骤:步骤1、句子分词选取一对已翻译好的中英文句子;分别对所述英文、中文句子分词,包括,英文句子分词:将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件,对英文句子进行词形还原处理,按照最大正向匹配法根据词典中单词对英文句子进行分词。中文句子分词:选用含有新词发现功能的中文分词器对中文句子进行分词。步骤2、精确匹配以分词处理后的英文为对象,从第一个实词开始,根据该英文单词的英汉词典中文释义查找中文句子中出现的词语,如果出现某中文词语与该英文单词的释义相同的,则记录英语单词和该中文词语的对应关系;继续下一个英文实词,直到最后一个单词。步骤3、模糊匹配对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;可以多个英文单词对应一个中文单词。例如:中文句子为“传统的超级计算机只擅长科学工程计算,而超级服务器兼顾这两方面的应用,它是高端计算机的主流”,英文句子为“Thetraditionalsupercomputersaregoodatthescientificengineeringcomputingonly,whilethissuper-serverisgoodatboth,thusbeingthemainstreamofthehigh-endcomputers.”。“超级服务器”是一个词,super词典释义中有“超级”的含义,对应到“超级服务器”,server词典释义中有“服务器”的含义,对应到“超级服务器”。“高端”是一个词,high词典释义中有“高级”的含义,和“高端”的相似度为(1+1)/(2+2)=25%,大于20%,对应到“高端”,end词典释义中有“末端”的含义,和“高端”的相似度为(1+1)/(2+2)=25%,大于20%,对应到“高端”。步骤4、修正词语对应关系,即遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义。否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典。例如:上例中super和server均对应超“超级服务器”,“-”属于非实义词,则记录“super-server”和“超级服务器”的对应关系,类似“high-end”和“高端”具有对应关系。步骤5、生成片段语料设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词。如果当前片段包含中文词语超过2个,记录此片段。如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点。如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连本文档来自技高网...
一种中英文片段语料生成方法

【技术保护点】
一种中英文片段语料生成方法,其特征在于,包括以下步骤:步骤1、分句处理,即选取一对已翻译好的中英文句子;分别对所述英文、中文句子作分词处理;步骤2、根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系;步骤3、对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;步骤4、修正词语对应关系,即遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义;否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典;步骤5、生成片段语料,即设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词;如果当前片段包含中文词语超过2个,记录此片段;如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点;如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连续,继续;如果下一个单词不连续,记录不包含最后两个不连续单词的片段,重新开始设置片段起点;当中文词语遇到分句标点符号时,重新设置片段起点为下一个中文词语。...

【技术特征摘要】
1.一种中英文片段语料生成方法,其特征在于,包括以下步骤:步骤1、分句处理,即选取一对已翻译好的中英文句子;分别对所述英文、中文句子作分词处理;步骤2、根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系;步骤3、对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;步骤4、修正词语对应关系,即遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义;否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典;步骤5、生成片段语料,即设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词;如果当前片段包含中文词语超过2个,记录此片段;如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点;如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果...

【专利技术属性】
技术研发人员:宋安琪
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1