句生成方法和设备技术

技术编号:20745569 阅读:34 留言:0更新日期:2019-04-03 10:27
公开一种句生成方法和设备。所述句生成方法包括:生成基于源句生成的源词集合的对应词集合;通过基于经由对源句进行编码生成的多个特征向量执行解码,来生成多个词;基于源词集合和对应词集合中的任一个或二者,调节生成的多个词中的至少一个的概率;基于调节的概率和未调节的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。

【技术实现步骤摘要】
句生成方法和设备本申请要求于2017年9月25日提交到韩国知识产权局的第10-2017-0123569号韩国专利申请的权益,该韩国专利申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及一种句生成方法和设备。
技术介绍
用户可使用机器翻译来翻译与用户的母语不同的语言的句、段落、短语或词。机器翻译的结果可直接影响用户理解,因此已经积极地进行提高机器翻译的准确性的研究。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本
技术实现思路
不意在确定所要求保护的主题的关键特征或必要特征,也不意在用于辅助确定所要求保护的主题的范围。在一个总体方面,一种句生成方法包括:生成基于源句生成的源词集合的对应词集合;通过基于经由对源句进行编码生成的多个特征向量执行解码,来生成多个词;基于源词集合和对应词集合中的任一个或二者,调节生成的多个词中的至少一个的概率;基于调节的概率和未调节的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。调节概率的步骤可包括:响应于在生成的多个词之中识别的词包括在对应词集合中,调节识别的词的概率。调节概率的步骤可包括:响应于在生成的多个词之中识别的词不包括在对应词集合中,验证在包括识别的词的组中的其他词和对应词集合之中是否存在普通词;响应于普通词被验证为存在且普通词是生成的多个词之一,调节普通词的概率。调节概率的步骤可包括:基于生成的多个词中的每个的概率,识别生成的多个词之中的词;并且响应于识别的词包括在对应词集合中,调节识别的词的概率。执行解码的步骤可包括:使用所述多个特征向量和多个权重计算上下文向量;基于计算的上下文向量和之前的解码结果,生成所述多个词。调节概率的步骤可包括:基于用于执行解码的多个权重之中的最大值,识别与生成的多个词之中的具有最大概率的词相应的源词,其中,识别的源词是源句中的多个词之一;响应于识别的源词包括在源词集合中,从对应词集合检索识别的源词的对应词;响应于检索到的对应词是生成的多个词之一,调节检索到的对应词的概率。调节概率的步骤可包括:响应于检索到的对应词的概率被调节,基于生成的多个词之中的除了检索到的对应词之外的剩余词的概率和检索到的对应词的调节的概率,识别检索到的对应词之中的词和所述剩余词;响应于识别的词包括在对应词集合中,调节识别的词的概率。所述句生成方法还可包括:响应于选择的多个字符串是源句的翻译的句的候选:计算选择的多个字符串中的每个的分数;将选择的多个字符串中的每个的覆盖度应用于选择的多个字符串的各自的分数;基于应用选择的多个字符串中的每个的覆盖度的结果,将选择的多个字符串之一确定为翻译的句,其中,选择的多个字符串中的每个的覆盖度可指示对应词集合中有多少词包括在选择的多个字符串中的每个中。源词集合可包括从源句提取的词、提取的词的同义词和提取的词的基本形式中的任意一个,或者任意两个或更多个的任意组合。对应词集合可包括通过以另一语言表示源词集合中的词而获得的翻译的词、翻译的词的同义词和翻译的词的基本形式中的任意一个,或者任意两个或更多个的任意组合。源句和源词集合可以是第一语言。生成的多个词和对应词集合可以是与第一语言不同的第二语言。可使用第一语言-第二语言词典作为参考生成对应词集合。在另一总体方面,一种存储指令的非暂时性计算机可读存储介质,当由处理器执行所述指令时使处理器执行如上所述的句生成方法。在另一总体方面,一种句生成设备包括:控制器,被配置为:生成基于源句生成的源词集合的对应词集合;通过基于经由对源句进行编码生成的多个特征向量执行解码,来生成多个词;基于源词集合和对应词集合中的任一个或二者,调节生成的多个词中的至少一个的概率;基于调节的概率和未调节的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。控制器还可被配置为:响应于在生成的多个词之中识别的词包括在对应词集合中,调节识别的词的概率。控制器还可被配置为:响应于在生成的多个词之中识别的词不包括在对应词集合中,验证在包括识别的词的组中的其他词和对应词集合之中是否存在普通词。控制器还可被配置为:响应于普通词被验证为存在且普通词是生成的多个词之一,调节普通词的概率。控制器还可被配置为:基于生成的多个词中的每个的概率来识别生成的多个词之中的词;响应于识别的词包括在对应词集合中,调节识别的词的概率。控制器还可被配置为:使用所述多个特征向量和多个权重计算上下文向量,并基于计算的上下文向量和之前的解码结果来生成所述多个词。控制器还可被配置为:基于用于执行解码的多个权重的最大值来识别与生成的多个词之中的具有最大概率的词相应的源词,其中,识别的源词是源句中的多个词之一;响应于识别的源词包括在源词集合中,从对应词集合检索识别的源词的对应词;响应于检索到的对应词是生成的多个词之一,调节检索到的对应词的概率。控制器还可被配置为:响应于检索到的对应词的概率被调节,基于生成的多个词之中的除了检索到的对应词之外的剩余词的概率和检索到的对应词的调节的概率,识别检索到的对应词之中的词和所述剩余词。控制器还可被配置为:响应于识别的词包括在对应词集合中,调节识别的词的概率。控制器还可被配置为:响应于选择的多个字符串是源句的翻译的句的候选:计算选择的多个字符串中的每个的分数,将选择的多个字符串中的每个的覆盖度应用于选择的多个字符串的各自的分数,并基于应用选择的多个字符串中的每个的覆盖度的结果,将选择的多个字符串之一确定为翻译的句,其中,选择的多个字符串中的每个的覆盖度指示对应词集合中有多少词包括在选择的多个字符串中的每个中。源词集合可包括从源句提取的词、提取的词的同义词和提取的词的基本形式中的任意一个,或者任意两个或更多个的任意组合。对应词集合可包括通过以另一语言表示源词集合中的词而获得的翻译的词、翻译的词的同义词和翻译的词的基本形式中的任意一个,或者任意两个或更多个的任意组合。源句和源词集合可以是第一语言。生成的多个词和对应词集合可以是与第一语言不同的第二语言。可使用第一语言-第二语言词典作为参考生成对应词集合。在另一实施例中,一种机器翻译方法包括:基于源句生成源词集合,其中,源词集合和源句是第一语言;通过使用词典生成与源词集合相应的对应词集合,其中,对应词集合是与第一语言不同的第二语言;通过执行对源句的解码生成第二语言的多个词;基于源词集合和对应词集合中的任一个或二者,增加生成的多个词中的至少一个的概率;基于增加的概率和在所述增加之前的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。增加概率的步骤可包括:响应于生成的多个词之中的选择的词包括在对应词集合中,增加选择的词的概率。增加概率的步骤可包括:响应于生成的多个词之中的选择的词不包括在对应词集合中,验证在包括选择的词的组中的其他词和对应词集合之中是否存在普通词;响应于普通词被验证为存在且普通词是生成的多个词之一,增加普通词的概率。所述机器翻译方法还可包括:响应于选择的多个字符串是源句的翻译的句的候选:通过将包括在所述多个字符串中的每个中的多个词的概率相加,计算选择的多个字符串中的每个的分数;将选择的多个字符串中的每个的覆盖度与选择的多个字符串的各自的分数相乘;基于相乘的结果,将选择的多个字本文档来自技高网...

【技术保护点】
1.一种句生成方法,包括:生成基于源句生成的源词集合的对应词集合;通过基于经由对源句进行编码生成的多个特征向量执行解码,来生成多个词;基于源词集合和对应词集合中的一个或二者,调节生成的多个词中的至少一个的概率;基于调节的概率和未调节的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。

【技术特征摘要】
2017.09.25 KR 10-2017-01235691.一种句生成方法,包括:生成基于源句生成的源词集合的对应词集合;通过基于经由对源句进行编码生成的多个特征向量执行解码,来生成多个词;基于源词集合和对应词集合中的一个或二者,调节生成的多个词中的至少一个的概率;基于调节的概率和未调节的概率,从包括生成的多个词中的每个的不同的字符串选择多个字符串。2.如权利要求1所述的句生成方法,其中,调节概率的步骤包括:响应于在生成的多个词之中识别的词包括在对应词集合中,调节识别的词的概率。3.如权利要求1所述的句生成方法,其中,调节概率的步骤包括:响应于在生成的多个词之中识别的词不包括在对应词集合中,验证在包括识别的词的组中的其他词和对应词集合之中是否存在普通词;响应于普通词被验证为存在且普通词是生成的多个词之一,调节普通词的概率。4.如权利要求1所述的句生成方法,其中,调节概率的步骤包括:基于生成的多个词中的每个的概率,识别生成的多个词之中的词;响应于识别的词包括在对应词集合中,调节识别的词的概率。5.如权利要求1所述的句生成方法,其中,执行解码的步骤包括:使用所述多个特征向量和多个权重计算上下文向量;基于计算的上下文向量和之前的解码结果,生成所述多个词。6.如权利要求1所述的句生成方法,其中,调节概率的步骤包括:基于用于执行解码的多个权重之中的最大值,识别与生成的多个词之中的具有最大概率的词相应的源词,其中,识别的源词是源句中的多个词之一;响应于识别的源词包括在源词集合中,从对应词集合检索识别的源词的对应词;响应于检索到的对应词是生成的多个词之一,调节检索到的对应词的概率。7.如权利要求6所述的句生成方法,其中,调节概率的步骤还包括:响应于检索到的对应词的概率被调节,基于生成的多个词之中的除了检索到的对应词之外的剩余词的概率和检索到的对应词的调节的概率,识别检索到的对应词之中的词和所述剩余词;响应于识别的词包括在对应词集合中,调节识别的词的概率。8.如权利要求1所述的句生成方法,还包括:响应于选择的多个字符串是源句的翻译的句的候选:计算选择的多个字符串中的每个的分数;将选择的多个字符串中的每个的覆盖度应用于选择的多个字符串的对应的一个字符串的分数;基于应用选择的多个字符串中的每个的覆盖度的结果,将选择的多个字符串之一确定为翻译的句,其中,选择的多个字符串中的每个的覆盖度指示对应词集合中有多少词包括在选择的多个字符串中的每个中。9.如权利要求1所述的句生成方法,其中,源词集合包括从源句提取的词、提取的词的同义词和提取的词的基本形式中的任意一个,或者任意两个或更多个的任意组合,对应词集合包括通过以另一语言表示源词集合中的词而获得的翻译的词、翻译的词的同义词和翻译的词的基本形式中的任意一个,或者任意两个或更多个的任意组合。10.如权利要求1所述的句生成方法,其中,源句和源词集合是第一语言,生成的多个词和对应词集合是与第一语言不同的第二语言。11.如权利要求1所述的句生成方法,其中,使用第一语言-第二语言词典作为参考生成对应词集合。12.一种存储指令的非暂时性计算机可读存储介质,...

【专利技术属性】
技术研发人员:李知炫李镐式
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1