语音识别的方法、装置、设备和存储介质制造方法及图纸

技术编号：35647530 阅读：27 留言：0更新日期：2022-11-19 16:41

根据本公开的实施例，提供了用于语音识别的方法、装置、设备和存储介质。该方法包括：生成与输入语音对应的第一文本；确定第一文本中特定于第一语言的至少一个专用词汇；通过将至少一个专用词汇替换为第二语言的对应词汇，以生成第二文本；以及提供经生成的第二文本。基于以上方式，本公开的实施例能够将第一语言(例如，方言)的语音直接输出为第二语言(例如，普通话)的文本，从而提高语音识别的效率。从而提高语音识别的效率。从而提高语音识别的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别的方法、装置、设备和存储介质

[0001]本公开的示例实施例总体涉及计算机领域，特别地涉及用于语音识别的方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着计算机技术的发展，语音识别技术已经被广泛地应用于人们生活中的各个方面。例如，人们可以利用语音识别技术来执行文本输入，或者会议记录等。
[0003]然而，语音识别技术在一些语言的识别方面却受到较大的限制。例如，语音识别技术只能够将方言语音识别成与发音对应的文本，这将使得不理解该方言的用户无法理解文本所表达的含义。

技术实现思路

[0004]在本公开的第一方面，提供了一种语音识别的方法。该方法包括生成与输入语音对应的第一文本；确定第一文本中特定于第一语言的至少一个专用词汇；通过将至少一个专用词汇替换为第二语言的对应词汇，以生成第二文本；以及提供经生成的第二文本。
[0005]在本公开的第二方面，提供了一种用于语音识别的装置。该装置包括生成模块，被配置为生成与输入语音对应的第一文本；确定模块，被配置为确定第一文本中特定于第一...

【技术保护点】

【技术特征摘要】
1.一种语音识别的方法，包括：生成与输入语音对应的第一文本；确定所述第一文本中特定于第一语言的至少一个专用词汇；通过将所述至少一个专用词汇替换为第二语言的对应词汇，以生成第二文本；以及提供经生成的所述第二文本。2.根据权利要求1所述的方法，其中确定所述第一文本中特定于第一语言的至少一个专用词汇包括：将所述第一文本切分为多个词汇；以及确定所述多个词汇中与所述第一语言的专用词汇集匹配的所述至少一个专用词汇。3.根据权利要求2所述的方法，还包括：获取与相同场景相关联的第一样本文本和第二样本文本，所述第一样本文本对应于所述第一语言，所述第二样本文本对应所述第二语言；确定与所述第一样本文本对应的第一词汇集和与所述第二样本文本对应的第二词汇集；以及基于所述第一词汇集和所述第二词汇集，生成所述第一语言的所述专用词汇集，其中所述专用词汇集包括属于所述第一词汇集但不属于所述第二词汇集的词汇。4.根据权利要求3所述的方法，其中获取与相同场景相关联的第一样本文本和第二样本文本包括：获取与所述相同场景相关联的第一样本语音和第二样本语音；以及基于所述第一样本语音和所述第二样本语音，生成所述第一样本文本和所述第二样本文本。5.根据权利要求3所述的方法，其中生成所述第一语言的所述专用词汇集包括：基于所述第一词汇集和所述第二词汇集，生成候选词汇集，所述候选词汇集包括属于所述第一词汇集但不属于所述第二词汇集的多个候选词汇；确定所述候选词汇集中的候选词汇的标注信息，所述标注信息指示所述候选词汇被转换为所述第二语言的必要性；以及基于所述候选词汇集中的所述多个候选词汇的所述标注信息，生成所述第一语言的所述专用词汇集。6.根据权利要求5所述的方法，其中所述标注信息指示以下之一：所述候选词汇在不转换为所述第二语言的情况下的可理解程度；所述候选词汇在所述第一语言中是否具有固定含义；或者所述候选词汇在所述第一样本文本中的频率。7.根据权利要求6所述的方法，其中基于所述候选词汇集中的候选词汇的所述标注信息生成所述第一语言的所述专用词汇集包括：基于所述候选词汇集中的所述多个候选词汇的所述标注信息，确定至少一个目标词汇，其中所述至少一个目标词汇在未被转换为所述第二语言时的可理解程度低于阈值程度、或者所述至少一个目标词汇在所述第一语言中具有固定含义、或者所述至少一个目标词汇在所述第一样本文本中的所述频率高于...

【专利技术属性】
技术研发人员：陈智鹏，孙健，何怡，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人