本发明专利技术公开了一种多语言智能预处理实时统计机器翻译系统的接收模块,接收模块用于对系统输入的规范性进行检查,接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割和噪音消除。本发明专利技术的接收模块既可以用于对文本语言的接收,也可以用于对语音语言的接受;本发明专利技术接收模块能够对接收的语言进行基本的处理,例如将一对html标记之间的内容单独成句;在语音停顿大于0.5s时,认为在该停顿之后新开始一个句子;清除掉输入中口语话文本流中相邻重复的片段等,便于后续机器翻译模块对待翻译语言的翻译,从而提高翻译的效率和质量。
【技术实现步骤摘要】
一种多语言智能预处理实时统计机器翻译系统的接收模块
本专利技术涉及人工智能机器翻译
,具体来说,涉及一种多语言智能预处理实时统计机器翻译系统的接收模块。
技术介绍
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程,而且两种自然语言在意义上应该是等价的。目前,一种比较成熟而且主流的机器翻译方法是基于统计的方法,该方法的优点在于几乎不需要人工撰写翻译规则,所有的翻译信息都是自动地从语料中学习而获得,因此该方法最大程度地发挥了计算机高速运算的特点,极大地降低了人工成本。基于统计模型的机器翻译技术从平行语料库中学习从一种语言A到另一种语言B的短语翻译。在翻译新的句子时,把输入语言A的句子分解成若干短语,根据学习来的短语(A语言)-短语(B语言)的共现概率,把语言A的句子翻译成语言B的句子。整个学习、翻译过程完全根据统计模型。而该技术的接收模块主要用于对待翻译文本或者待翻译语言(例如:演讲中演讲内容的翻译)进行基本的规范性检查和处理,使后期的机器翻译能够更加顺利,目前,现有的接收模块具有通用性差,只能接受文本语言或者语音语言,另外,接收语音的接收模块对语音的处理会出现各种问题等。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种多语言智能预处理实时统计机器翻译系统的接收模块,能够克服现有技术的上述不足。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种多语言智能预处理实时统计机器翻译系统的接收模块,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割和噪音消除。进一步的,所述文本语言接收模块包括句子分割子模块,所述句子分割子模块用于把输入文本在标点符号处断开,使得后续机器翻译模块翻译的基本单元为一句话。优选的,当输入文本中包含有html标记时,一对html标记之间的内容单独成句,作为完整的句子加以翻译。进一步的,所述文本语言接收模块还包括格式转换子模块,所述格式转换子模块用于把语言文本转换为机器翻译模块翻译时支持的纯文本或XML格式。优选的,所述语言文本包括PDF文本和/或图片文本。进一步的,所述语音识别结果接收模块包括句子分割子模块,所述句子分割子模块用于对输入的语音文本流根据词与词之间的停顿断句。优选的,所述句子分割子模块在句子之间停顿大于5s时,即认为在停顿之后新开始一个句子。进一步的,所述语音识别结果接收模块还包括噪音消除子模块,所述噪音消除子模块用于清除掉输入中口语话文本流中相邻重复的片段。优选的,机器翻译系统后续模块对于语音识别结果可接收的模式为纯文本和混淆网络。本专利技术的有益效果:本专利技术的接收模块既可以用于对文本语言的接收,也可以用于对语音语言的接受;本专利技术接收模块能够对接收的语言进行基本的处理,例如将一对html标记之间的内容单独成句;在语音停顿大于0.5s时,认为在该停顿之后新开始一个句子;清除掉输入中口语话文本流中相邻重复的片段等,从而便于后续机器翻译模块对待翻译语言的翻译,从而提高翻译的效率和质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的文本语言接收模块的示意图;图2是根据本专利技术实施例所述的语音识别结果接收模块的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-2所示,根据本专利技术实施例所述的一种多语言智能预处理实时统计机器翻译系统的接收模块,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割和噪音消除;所述文本语言接收模块包括句子分割子模块,所述句子分割子模块用于把输入文本在标点符号处断开,使得后续机器翻译模块翻译的基本单元为一句话;所述文本语言接收模块还包括格式转换子模块,所述格式转换子模块用于把语言文本转换为机器翻译模块翻译使支持的纯文本或XML格式。所述语音识别结果接收模块包括句子分割子模块,所述句子分割子模块用于对输入的语音文本流根据词与词之间的停顿断句;所述语音识别结果接收模块还包括噪音消除子模块,所述噪音消除子模块用于清除掉输入中口语话文本流中相邻重复的片段;机器翻译系统后续模块可接收的语音识别结果接收模块发送的模式为纯文本和混淆网络。在一具体实施例中,当输入文本中包含有html标记时,一对html标记之间的内容单独成句,作为完整的句子加以翻译。在一具体实施例中,所述语言文本包括PDF文本和/或图片文本。在一具体实施例中,所述句子分割子模块在句子之间停顿大于5s时,即认为在停顿之后新开始一个句子。为了方便理解本专利技术的上述技术方案,以下通过具体使用方式上对本专利技术的上述技术方案进行详细说明。在具体使用时,本专利技术所述的文本语言接收模块主要由两部分组成,如附图中图1所示:A.1句子分割子模块和A.2格式转换子模块,A.1句子分割子模块把输入文本在标点符号:例如句号、问号、感叹号处断开,使得后续机器翻译模块翻译的基本单元为一句一句话;当输入文本中包含有html标记时,一对html标记之间的内容单独成句,以保证其作为完整的句子加以翻译,而不是作为html标记外文本的一部分加以翻译;机器翻译的后续模块支持纯文本和XML格式文本的翻译,因此,当输入文本为其他格式:比如PDF或图片时就需要格式转换模块的转换;A.2格式转换子模块把其他格式转换成纯文本和XML格式。语音识别结果接收模块也主要由两部分组成,如附图中图2所示:A.3句子分割子模块和A.4噪音消除子模块。A.3句子分割子模块用于对输入的文本流根据词与词之间的停顿断句,例如当停顿大于0.5s时,认为在该停顿之后新开始一个句子;A.4噪音消除子模块的功能是清除掉输入中口语话文本流中相邻重复的片段,例如把“嗯嗯”简化成“嗯”;“也就是说也就是说我们必须…”简化成“也就是说我们必须…”;机器翻译系统后续模块对于语音识别结果可接收的模式为纯文本和混淆网络。综上所述,借助于本专利技术的上述技术方案,本专利技术的接收模块既可以用于对文本语言的接收,也可以用于对语音语言的接受;本专利技术接收模块能够对接收的语言进行基本的处理,例如将一对html标记之间的内容单独成句;在语音停顿大于0.5s时,认为在该停顿之后新开始一个句子;清除掉输入中口语话文本流中相邻重复的片段等,从而便于后续机器翻译模块对待翻译语言的翻译,从而提高翻译的效率和质量。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包本文档来自技高网...

【技术保护点】
一种多语言智能预处理实时统计机器翻译系统的接收模块,其特征在于,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割、噪音消除。
【技术特征摘要】
1.一种多语言智能预处理实时统计机器翻译系统的接收模块,其特征在于,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割、噪音消除。2.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统的接收模块,其特征在于,所述文本语言接收模块包括句子分割子模块,所述句子分割子模块用于把输入文本在标点符号处断开,使得后续机器翻译模块翻译的基本单元为一句话。3.根据权利要求2所述的一种多语言智能预处理实时统计机器翻译系统的接收模块,其特征在于,当输入文本中包含有html标记时,一对html标记之间的内容单独成句,作为完整的句子加以翻译。4.根据权利要求2所述的一种多语言智能预处理实时统计机器翻译系统的接收模块,其特征在于,所述文本语言接收模块还包括格式转换子模块,所述格式转换子模块用于把语言文本转换为机器翻译模块翻译时支持...
【专利技术属性】
技术研发人员:张昱琪,唐亮,
申请(专利权)人:唐亮,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。