多人多语种识别和翻译方法与装置制造方法及图纸

技术编号:29794299 阅读:10 留言:0更新日期:2021-08-24 18:14
本申请提供了一种多人多语种识别和翻译方法与装置。该方法包括:获取整段音频数据,整段音频数据为多个发声者发出的,且各发声者发出的音频数据的语种包括至少一种;将整段音频数据,按照发声者的不同划分为多段第一子音频数据;将各段第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;将各段第二子音频数据转换为文字数据;将各文字数据翻译为目标语言。采用本方案实现了对多人多语种的整段音频数据的准确识别和翻译。

【技术实现步骤摘要】
多人多语种识别和翻译方法与装置
本申请涉及机器翻译领域,具体而言,涉及一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器。
技术介绍
随着经济、科技、生活逐渐全球化,各国人民之间的交流日益频繁,据统计全球一共有5000多种语言,多种语言之间的交流成为重要课题。例如在多国会议场景下,整理多语种会议音频记录,需要使用语音识别和机器翻译来辅助进行整理,将对应语种进行语音转文字,再将文本翻译成目标语言。而语音翻译不准确的痛点在于两个部分:一个是语音识别不准确(语音到文字),一个是翻译不准确(原文到译文),且是线性依赖的,一旦有一环不准确将会导致最终结果不准确。本专利技术主要解决多人多国语音识别和翻译不准确的问题,以及提升场景体验。现有技术中没有将多人多语种音频转换为同一语种文字的完整解决方案,无法规避两次转换(语音到文字、原文到译文)带来的转换正确率下降的问题,一般只单一解决语音识别率和翻译正确率的问题。
技术实现思路
本申请的主要目的在于提供一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器,以解决现有技术中多人多国语音识别和翻译不准确的问题。为了实现上述目的,根据本申请的一个方面,提供了一种多人多语种识别和翻译方法,包括:获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;将各段所述第二子音频数据转换为文字数据;将各所述文字数据翻译为目标语言。进一步地,将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据,包括:获取各所述发声者的声纹信息;根据所述声纹信息,将所述整段音频数据划分为多段所述第一子音频数据。进一步地,将各段所述第二子音频数据转换为文字数据,包括:创建各所述发声者的声学模型;根据所述声学模型将各段所述第二子音频数据转换为文字数据。进一步地,将各段所述第二子音频数据转换为文字数据之后,所述方法还包括:将相同语种的不同的所述发声者对应的所述文字数据进行聚合,得到各所述语种对应的文本。进一步地,将各所述文字数据翻译为目标语言,包括:获取各所述语种的翻译领域模型;采用所述翻译领域模型将各所述语种对应的文本,翻译为所述目标语言。进一步地,将各所述文字数据翻译为目标语言之后,所述方法还包括:获取各所述文本的时间戳;按照所述时间戳,将不同的所述目标语言进行聚合,得到最终翻译结果。进一步地,按照所述时间戳,将不同的所述目标语言进行聚合,得到最终翻译结果之后,所述方法还包括:获取各所述发声者的个性化音库;按照所述时间戳,采用所述个性化音库将各所述文本进行播报。根据本申请的另一个方面,提供了一种多人多语种识别和翻译装置,包括:第一获取单元,用于获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;第一划分单元,用于将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;第二划分单元,用于将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;转换单元,用于将各段所述第二子音频数据转换为文字数据;翻译单元,用于将各所述文字数据翻译为目标语言。根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的多人多语种识别和翻译方法。根据本申请的再一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的多人多语种识别和翻译方法。应用本申请的技术方案,通过获取多人多语种的整段音频数据,将整段音频数据,按照发声者的不同划分为多段第一子音频数据,即第一子音频数据携带着发声者信息,再将第一子音频数据,按照语种的不同划分为至少一段第二子音频数据,即第二子音频数据携带着发声者信息和语种信息,再将携带着发声者信息和语种信息的第二子音频数据转换为文字数据,最后将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了根据本申请的实施例的多人多语种识别和翻译方法流程图;图2示出了根据本申请的实施例的多人多语种识别和翻译装置示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:语音识别(ASR):语音识别也称为自动语音识别,是一种将人类语音转换为文本的技术。语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科。文本聚类(BDA):自然语言理解技术的一种,利用大数据分析技术,对文章内容进行深度分析,输出文章主题的分类。语音合成(TTS):将计算机自己产生的、或外部输入的文字信息转变为标准流畅的语音朗读出来。机器翻译(MT):利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。翻译领域模型:是指针对不同领域的文本进行翻译的模型,采用翻译领域模型可以对不同领域的文本进行翻译,可以实现对具体的领域中的专有名词的准确翻译,例如,金融、物理、人工智能等领域。正如
技术介绍
中所介绍的,本文档来自技高网
...

【技术保护点】
1.一种多人多语种识别和翻译方法,其特征在于,包括:/n获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;/n将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;/n将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;/n将各段所述第二子音频数据转换为文字数据;/n将各所述文字数据翻译为目标语言。/n

【技术特征摘要】
1.一种多人多语种识别和翻译方法,其特征在于,包括:
获取整段音频数据,所述整段音频数据为多个发声者发出的,且各所述发声者发出的音频数据的语种包括至少一种;
将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据;
将各段所述第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;
将各段所述第二子音频数据转换为文字数据;
将各所述文字数据翻译为目标语言。


2.根据权利要求1所述的方法,其特征在于,将所述整段音频数据,按照发声者的不同划分为多段第一子音频数据,包括:
获取各所述发声者的声纹信息;
根据所述声纹信息,将所述整段音频数据划分为多段所述第一子音频数据。


3.根据权利要求1所述的方法,其特征在于,将各段所述第二子音频数据转换为文字数据,包括:
创建各所述发声者的声学模型;
根据所述声学模型将各段所述第二子音频数据转换为文字数据。


4.根据权利要求1所述的方法,其特征在于,将各段所述第二子音频数据转换为文字数据之后,所述方法还包括:
将相同语种的不同的所述发声者对应的所述文字数据进行聚合,得到各所述语种对应的文本。


5.根据权利要求4所述的方法,其特征在于,将各所述文字数据翻译为目标语言,包括:
获取各所述语种的翻译领域模型;
采用所述翻译领域模型将各所述语种对应的文本,翻译为所述目标语言。


6.根据权...

【专利技术属性】
技术研发人员:李健袁逸晨陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1