多人多语种识别和翻译方法与装置制造方法及图纸

技术编号：29794299 阅读：10 留言：0更新日期：2021-08-24 18:14

本申请提供了一种多人多语种识别和翻译方法与装置。该方法包括：获取整段音频数据，整段音频数据为多个发声者发出的，且各发声者发出的音频数据的语种包括至少一种；将整段音频数据，按照发声者的不同划分为多段第一子音频数据；将各段第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；将各段第二子音频数据转换为文字数据；将各文字数据翻译为目标语言。采用本方案实现了对多人多语种的整段音频数据的准确识别和翻译。

全部详细技术资料下载

【技术实现步骤摘要】
多人多语种识别和翻译方法与装置
本申请涉及机器翻译领域，具体而言，涉及一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器。
技术介绍
随着经济、科技、生活逐渐全球化，各国人民之间的交流日益频繁，据统计全球一共有5000多种语言，多种语言之间的交流成为重要课题。例如在多国会议场景下，整理多语种会议音频记录，需要使用语音识别和机器翻译来辅助进行整理，将对应语种进行语音转文字，再将文本翻译成目标语言。而语音翻译不准确的痛点在于两个部分：一个是语音识别不准确(语音到文字)，一个是翻译不准确(原文到译文)，且是线性依赖的，一旦有一环不准确将会导致最终结果不准确。本专利技术主要解决多人多国语音识别和翻译不准确的问题，以及提升场景体验。现有技术中没有将多人多语种音频转换为同一语种文字的完整解决方案，无法规避两次转换(语音到文字、原文到译文)带来的转换正确率下降的问题，一般只单一解决语音识别率和翻译正确率的问题。
技术实现思路
本申请的主要目的在于提供一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器，以解决现有技术中多人多国语音识别和翻译不准确的问题。为了实现上述目的，根据本申请的一个方面，提供了一种多人多语种识别和翻译方法，包括：获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；将各段所述...

【技术保护点】
1.一种多人多语种识别和翻译方法，其特征在于，包括：/n获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；/n将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；/n将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；/n将各段所述第二子音频数据转换为文字数据；/n将各所述文字数据翻译为目标语言。/n

【技术特征摘要】
1.一种多人多语种识别和翻译方法，其特征在于，包括：
获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；
将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；
将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；
将各段所述第二子音频数据转换为文字数据；
将各所述文字数据翻译为目标语言。

2.根据权利要求1所述的方法，其特征在于，将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据，包括：
获取各所述发声者的声纹信息；
根据所述声纹信息，将所述整段音频数据划分为多段所述第一子音频数据。

3.根据权利要求1所述的方法，其特征在于，将各段所述第二子音频数据转换为文字数据，包括：
创建各所述发声者的声学模型；
根据所述声学模型将各段所述第二子音频数据转换为文字数据。

4.根据权利要求1所述的方法，其特征在于，将各段所述第二子音频数据转换为文字数据之后，所述方法还包括：
将相同语种的不同的所述发声者对应的所述文字数据进行聚合，得到各所述语种对应的文本。

5.根据权利要求4所述的方法，其特征在于，将各所述文字数据翻译为目标语言，包括：
获取各所述语种的翻译领域模型；
采用所述翻译领域模型将各所述语种对应的文本，翻译为所述目标语言。

6.根据权...

【专利技术属性】
技术研发人员：李健，袁逸晨，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人