语音识别方法、音频标注方法、计算机设备、存储装置制造方法及图纸

技术编号：23447825 阅读：21 留言：0更新日期：2020-02-28 21:30

本申请公开了语音识别方法、音频标注方法、计算机设备、具有存储功能的装置，其中语音识别方法包括：获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；确定至少两份ASR文本中相同的文本内容和不同的文本内容；保留相同的文本内容，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容；通过语言模型自动适配所有保留下来的文本内容或属性，以得到识别文本。通过上述方式，本申请能够提高语音识别的准确率。

Speech recognition method, audio annotation method, computer equipment, storage device

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、音频标注方法、计算机设备、存储装置
本申请涉及语音识别领域，特别是涉及语音识别方法、音频标注方法、计算机设备、具有存储功能的装置。
技术介绍
ASR，英文的全称是AutomatedSpeechRecognition，即自动语音识别技术，是一种将人的语音转换为文本的技术。伴随人工智能(AI，ArtificialIntelligence)技术的发展，基于ASR技术的语音机器人、坐席助于、语音质检等智能产品得到了大量的推广。ASR技术的准确率将直接影响智能产品效果，而现有的ASR技术识别准确率较低。
技术实现思路
本申请主要解决的技术问题是提供一种语音识别方法、音频标注方法、计算机设备、具有存储功能的装置，能够解决目前ASR技术中准确率较低的问题。为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法，包括以下步骤：获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；确定至少两份ASR文本中相同的文本内容和不同的文本内容；保留相同的文本内容，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容；通过语言模型自动适配所有保留下来的文本内容或属性，以得到识别文本。其中，保留相同的文本内容后包括：对保留的相同的文本内容设置位置标签；对不同的文本内容依次进行至少一个维度的共性比对包括：以设置标签后的相同的文本内容开始，从后往前对不同的文本内容依次进行至少一个维度的共性...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；/n确定所述至少两份ASR文本中相同的文本内容和不同的文本内容；/n保留所述相同的文本内容，对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有所述不同的文本内容；/n通过语言模型自动适配所有所述保留下来的文本内容或属性，以得到识别文本。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；
确定所述至少两份ASR文本中相同的文本内容和不同的文本内容；
保留所述相同的文本内容，对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有所述不同的文本内容；
通过语言模型自动适配所有所述保留下来的文本内容或属性，以得到识别文本。

2.根据权利要求1中所述的方法，其特征在于，
所述保留所述相同的文本内容后包括：
对所述保留的所述相同的文本内容设置位置标签；
所述对所述不同的文本内容依次进行至少一个维度的共性比对包括：
以所述设置标签后的所述相同的文本内容开始，从后往前对所述不同的文本内容依次进行至少一个维度的共性比对，和/或从前往后对所述不同的文本内容依次进行至少一个维度的共性比对。

3.根据权利要求1中所述的方法，其特征在于，
所述对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性前包括：
确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同；
响应于所述不同的文本内容的字数相同，输出所述字数相同的文本内容作为至少部分所述保留下来的文本内容。

4.根据权利要求3中所述的方法，其特征在于，
所述确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同后包括：
响应于所述不同的文本内容的字数不同，将每份所述ASR文本中对应字数不同位置的文本内容全部转换为拼音；
字数最多的ASR文本保留对应位置的该部分拼音，字数较少的ASR文本保留每份ASR文本中拼音相同的部分，将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。

5.根据权利要求2或4中所述的方法，其特征在于，
所述获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本包括：
获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本；
所述对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性包括：
对所述不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字内容相同；
响应于内容相同，输出所述相同的字作为至少部分所述保留下来的文本内容。

6.根据权利要求5中所述的方法，其特征在于，
所述对所述不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字相同包括：
响应于内容不同，确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同；
响应于拼音相同，输出所述相同的拼音作为至少部分所...

【专利技术属性】
技术研发人员：洪志云，徐成茂，
申请(专利权)人：广东美的白色家电技术创新中心有限公司，美的集团股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人