语音识别方法、音频标注方法、计算机设备、存储装置制造方法及图纸

技术编号:23447825 阅读:21 留言:0更新日期:2020-02-28 21:30
本申请公开了语音识别方法、音频标注方法、计算机设备、具有存储功能的装置,其中语音识别方法包括:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本;确定至少两份ASR文本中相同的文本内容和不同的文本内容;保留相同的文本内容,对不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性,直至遍历所有不同的文本内容;通过语言模型自动适配所有保留下来的文本内容或属性,以得到识别文本。通过上述方式,本申请能够提高语音识别的准确率。

Speech recognition method, audio annotation method, computer equipment, storage device

【技术实现步骤摘要】
语音识别方法、音频标注方法、计算机设备、存储装置
本申请涉及语音识别领域,特别是涉及语音识别方法、音频标注方法、计算机设备、具有存储功能的装置。
技术介绍
ASR,英文的全称是AutomatedSpeechRecognition,即自动语音识别技术,是一种将人的语音转换为文本的技术。伴随人工智能(AI,ArtificialIntelligence)技术的发展,基于ASR技术的语音机器人、坐席助于、语音质检等智能产品得到了大量的推广。ASR技术的准确率将直接影响智能产品效果,而现有的ASR技术识别准确率较低。
技术实现思路
本申请主要解决的技术问题是提供一种语音识别方法、音频标注方法、计算机设备、具有存储功能的装置,能够解决目前ASR技术中准确率较低的问题。为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音识别方法,包括以下步骤:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本;确定至少两份ASR文本中相同的文本内容和不同的文本内容;保留相同的文本内容,对不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性,直至遍历所有不同的文本内容;通过语言模型自动适配所有保留下来的文本内容或属性,以得到识别文本。其中,保留相同的文本内容后包括:对保留的相同的文本内容设置位置标签;对不同的文本内容依次进行至少一个维度的共性比对包括:以设置标签后的相同的文本内容开始,从后往前对不同的文本内容依次进行至少一个维度的共性比对,和/或从前往后对不同的文本内容依次进行至少一个维度的共性比对。其中,对不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性前包括:确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同;响应于不同的文本内容的字数相同,输出字数相同的文本内容作为至少部分保留下来的文本内容。其中,确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同后包括:响应于不同的文本内容的字数不同,将每份ASR文本中对应字数不同位置的文本内容全部转换为拼音;字数最多的ASR文本保留对应位置的该部分拼音,字数较少的ASR文本保留每份ASR文本中拼音相同的部分,将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。其中,获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本包括:获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本;对不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性包括:对不同的文本内容逐字进行单字比较,确定三份ASR文本中处于对应位置的字是否有两个字内容相同;响应于内容相同,输出相同的字作为至少部分保留下来的文本内容。其中,对不同的文本内容逐字进行单字比较,确定三份ASR文本中处于对应位置的字是否有两个字相同包括:响应于内容不同,确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同;响应于拼音相同,输出相同的拼音作为至少部分保留下来的文本内容的属性。其中,确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同后包括:响应于拼音不同,输出相同的拼音组成部分作为至少部分保留下来的文本内容的属性。其中,对不同的文本内容依次进行至少一个维度的共性比对后包括:确定所有保留下来的文本内容或文本内容的属性是否有不确定的字;响应于有不确定的字,结合不确定的字的拼音及其前后字,进行语义理解,将不确定的字转化为确定的字并保留下来,重新返回确定所有保留下来的文本内容或文本内容的属性是否有不确定的字步骤。其中,确定所有保留下来的文本内容或文本内容的属性是否有不确定的字后包括:响应于不存在不确定的字,将所有保留下来的文本内容转换为拼音,作为所有保留下来的文本内容的属性;通过语言模型自动适配所有保留下来的文本内容或属性包括:通过语言模型自动适配所有保留下来的拼音。其中,确定至少两份ASR文本中相同的文本内容和不同的文本内容前包括:确定三份ASR文本的字数是否相同;响应于三份ASR文本的字数相同,执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤;响应于三份ASR文本的字数不相同,确定字数最多的ASR文本数量是否大于一;响应于字数最多的ASR文本数量大于一,执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤。其中,获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本后包括:确定是否存在两份以上ASR文本一致的情况,响应于存在两份以上ASR文本一致的情况,将一致的ASR文本作为识别文本,响应于存在两份以上ASR文本不一致的情况,执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音标注方法,包括:获得音频;采用上述任一语音识别方法识别音频,得到识别文本;用识别文本对音频进行标注。为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机设备,包括:处理器、存储器及其存储的指令,存储器用于存储音频,处理器执行指令时实现上述任一方法的步骤。为解决上述技术问题,本申请采用的再一个技术方案是:提供一种具有存储功能的装置,包括:装置上存储有指令,指令被处理器执行时实现上述任一方法的步骤。本申请的有益效果是:区别于现有技术的情况,本申请通过至少两个自动语音识别ASR引擎同一音频,得到至少两份ASR文本,再对至少两份ASR文本进行至少一个维度的共性比对,以解决单个ASR引擎识别的可信度问题以及如何融合不同ASR引擎识别以提高识别准确性的问题,再通过语言模型的自动适配,得到逼近正确文本的识别文本,以此提高ASR技术的准确性。附图说明图1是本申请语音识别方法第一实施例的流程示意图;图2是本申请语音识别方法第二实施例的流程示意图;图3是本申请语音识别方法第三实施例的流程示意图;图4是本申请语音识别方法第四实施例的流程示意图;图5是本申请音频标注方法第一实施例的流程示意图;图6是本申请计算机设备第一实施例的结构示意图;图7是本申请具有存储功能的装置第一实施例的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参阅图1,图1示出了本申请语音识别方法第一实施例的流程示意图,该方法包括如下步骤:S101:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本。本实施例中,采用至少两个不同的自动语音识别ASR引擎识别本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本;/n确定所述至少两份ASR文本中相同的文本内容和不同的文本内容;/n保留所述相同的文本内容,对所述不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性,直至遍历所有所述不同的文本内容;/n通过语言模型自动适配所有所述保留下来的文本内容或属性,以得到识别文本。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本;
确定所述至少两份ASR文本中相同的文本内容和不同的文本内容;
保留所述相同的文本内容,对所述不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性,直至遍历所有所述不同的文本内容;
通过语言模型自动适配所有所述保留下来的文本内容或属性,以得到识别文本。


2.根据权利要求1中所述的方法,其特征在于,
所述保留所述相同的文本内容后包括:
对所述保留的所述相同的文本内容设置位置标签;
所述对所述不同的文本内容依次进行至少一个维度的共性比对包括:
以所述设置标签后的所述相同的文本内容开始,从后往前对所述不同的文本内容依次进行至少一个维度的共性比对,和/或从前往后对所述不同的文本内容依次进行至少一个维度的共性比对。


3.根据权利要求1中所述的方法,其特征在于,
所述对所述不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性前包括:
确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同;
响应于所述不同的文本内容的字数相同,输出所述字数相同的文本内容作为至少部分所述保留下来的文本内容。


4.根据权利要求3中所述的方法,其特征在于,
所述确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同后包括:
响应于所述不同的文本内容的字数不同,将每份所述ASR文本中对应字数不同位置的文本内容全部转换为拼音;
字数最多的ASR文本保留对应位置的该部分拼音,字数较少的ASR文本保留每份ASR文本中拼音相同的部分,将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。


5.根据权利要求2或4中所述的方法,其特征在于,
所述获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本包括:
获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本;
所述对所述不同的文本内容依次进行至少一个维度的共性比对,保留每个维度下具有共性的文本内容或文本内容的属性包括:
对所述不同的文本内容逐字进行单字比较,确定三份ASR文本中处于对应位置的字是否有两个字内容相同;
响应于内容相同,输出所述相同的字作为至少部分所述保留下来的文本内容。


6.根据权利要求5中所述的方法,其特征在于,
所述对所述不同的文本内容逐字进行单字比较,确定三份ASR文本中处于对应位置的字是否有两个字相同包括:
响应于内容不同,确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同;
响应于拼音相同,输出所述相同的拼音作为至少部分所...

【专利技术属性】
技术研发人员:洪志云徐成茂
申请(专利权)人:广东美的白色家电技术创新中心有限公司美的集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1