一种翻译模型的训练方法、装置以及机器可读介质制造方法及图纸

技术编号：21548119 阅读：60 留言：0更新日期：2019-07-06 21:34

本发明专利技术实施例提供了一种翻译模型的训练方法、装置及机器可读介质，其中，所述方法包括：将第一语种的标准文本转化成第一语种的变形文本；将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据，并依据所述训练数据对所述翻译模型进行训练。通过本发明专利技术实施例提供的翻译模型的训练方案训练出的翻译模型，可以精准地对用户输入的口语化语音进行同声翻译，提高翻译模型的翻译性能。

A Training Method, Device and Machine Readable Media for Translation Model

全部详细技术资料下载

【技术实现步骤摘要】
一种翻译模型的训练方法、装置以及机器可读介质
本专利技术涉及双语翻译
，特别是涉及一种翻译模型的训练方法、装置以及机器可读介质。
技术介绍
随着国际性交流的增加，使用不同语种的语种沟通越来越频繁。为克服语种交流障碍，基于客户端中安装翻译模型，通过翻译模型进行在线语音翻译即同声翻译得到广泛的应用。在线语音翻译一般涉及两个环节，第一是进行语音识别，即将用户输入的第一语种的语音信号转换为文本；第二是通过翻译模型对文本进行翻译，得到作为翻译结果的第二语种的文本，最后向用户提供第二语种文本或语言信息。翻译模型基于双语句对训练生成，用于训练翻译模型的双语句对均为正式的书面语即为标准文本，因此翻译模型仅能精准的对用户输入的标准文本对应的语音进行同声翻译。而在实际应用过程中，碍于用户的说话习惯用户输入的待翻译语音过于口语化，此时翻译模型将无法精准地对用户输入的语音进行同声翻译，影响翻译模型的翻译性能。
技术实现思路
本专利技术提供了一种翻译模型的训练方法、装置以及机器可读介质，可以精准地对用户输入的口语化语音进行同声传译，提高翻译模型的传译性能。为了解决上述问题，本专利技术公开了一种翻译模型的训练方法，其中，所述方法包括：将第一语种的标准文本转化成第一语种的变形文本；将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据，并依据所述训练数据对所述翻译模型进行训练。为了解决上述问题，本专利技术还公开了一种翻译模型的训练装置，其中所述装置包括：转化模块，用于将第一语种的标准文本转化成第一语种的变形文本；训练模块，用...

【技术保护点】
1.一种翻译模型的训练方法，其特征在于，包括：将第一语种的标准文本转化成第一语种的变形文本；将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据，并依据所述训练数据对所述翻译模型进行训练。

【技术特征摘要】
1.一种翻译模型的训练方法，其特征在于，包括：将第一语种的标准文本转化成第一语种的变形文本；将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据，并依据所述训练数据对所述翻译模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述将第一语种的标准文本转化成第一语种的变形文本的步骤，包括：将所述第一语种的标准文本中的一个或多个分词进行重复，得到第一语种的变形文本。3.根据权利要求2所述的方法，其特征在于，所述将所述第一语种的标准文本中的一个或多个分词进行重复，得到第一语种的变形文本的步骤，包括：将所述第一语种的标准文本进行分词处理；针对每个分词，生成第一随机概率值；依据预设的重复次数概率分布，确定所述第一随机概率值对应的重复次数，将所述分词重复所述重复次数次。4.根据权利要求1所述的方法，其特征在于，所述将第一语种的标准文本转化成第一语种的变形文本的步骤，包括：在所述第一语种的标准文本中的一个或者多个插入位置处，添加插入词得到第一语种的变形文本；其中，所述第一语种的标准文本的句首位置、句尾位置以及所述第一语种的标准文本中任意两分词间均为插入位置。5.根据权利要求4所述的方法，其特征在于，在所述第一语种的标准文本中的一个或者多个插入位置处，添加插入词得到第一语种的变形文本的步骤，包括：确定所述第一语种的标准文本中的各插入位置；针对每个插入位置，生成第二随机概率值；依据预设的插入次数概率分布，确定所述第二随机概率值对应的插入次数，从插入词列表中确定与所述插入位置匹配的所述插入次数的插入词，并插入确定的各所述插入词。6.根据权利要求1所述的方法，其特征在于，所述将第一语种的标准文本转化成第一语种的变形文本的步骤，包括：将所述第一语种的标准文本中的一个或多个分词删除，得到第一语种的变形文本。7.根据权利要求6所述的方法，其...

【专利技术属性】
技术研发人员：施亮亮，王宇光，姜里羊，阳家俊，李响，卫林钰，陈伟，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人