【技术实现步骤摘要】
语音识别结果的测评方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种语音识别结果的测评方法、装置、设备及存储介质。
技术介绍
视频回访是现公司维护客户的手段之一,通过公司的运维人员对客户进行视频回访,令公司可以进一步了解客户需求。视频回访中采用到的技术之一为语音识别技术(automaticspeechrecognition,ASR),语音识别技术也被称为自动语音识别,其主要目的是将人类的语音中的词汇内容转换为计算机可读的输入,也就是说,在视频回访项目中,通过语音识别技术对客户所回复的语音进行识别,然后将识别到的语音转化成对应的文本文字,实现视频回访的语音识别。在利用语音识别技术对语音进行文本转化后,通常会采用随机抽查的方式确定语音转化为文本的准确性。在采用随机抽查的方式检测语音转化为文本的过程中,不仅步骤冗杂,而且消耗大量的时间,进而导致评定初始语音转化为初始文本的准确率的测评效率低下。
技术实现思路
本专利技术提供了一种语音识别结果的测评,用于提高评定初始语音转化为初始文本的准确率的测评效率。本专利技术第一方面提供了一种语音识别结果的测评方法,包括:获取视频回访项目中的初始语音,并基于语音识别函数对所述初始语音进行转化,得到转化过后的初始文本;对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理,得到待检测文本;基于预置的序列函数获取所述待检测文本中的待检测词序列,根据预置的标准词序列对所述待检测词序列进行校对,并在所述待检测词序列中进行校对标记,得到校 ...
【技术保护点】
1.一种语音识别结果的测评方法,其特征在于,所述语音识别结果的测评方法包括:/n获取视频回访项目中的初始语音,并基于语音识别函数对所述初始语音进行转化,得到转化过后的初始文本;/n对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理,得到待检测文本;/n基于预置的序列函数获取所述待检测文本中的待检测词序列,根据预置的标准词序列对所述待检测词序列进行校对,并在所述待检测词序列中进行校对标记,得到校对文本;/n采用预置的计算公式计算所述校对文本的字符识别错误率;/n通过对比所述字符识别错误率与标准错误率选取预置的比对结果,并根据所述预置的比对结果确定语音转化文本的转化测评结果。/n
【技术特征摘要】
1.一种语音识别结果的测评方法,其特征在于,所述语音识别结果的测评方法包括:
获取视频回访项目中的初始语音,并基于语音识别函数对所述初始语音进行转化,得到转化过后的初始文本;
对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理,得到待检测文本;
基于预置的序列函数获取所述待检测文本中的待检测词序列,根据预置的标准词序列对所述待检测词序列进行校对,并在所述待检测词序列中进行校对标记,得到校对文本;
采用预置的计算公式计算所述校对文本的字符识别错误率;
通过对比所述字符识别错误率与标准错误率选取预置的比对结果,并根据所述预置的比对结果确定语音转化文本的转化测评结果。
2.根据权利要求1所述的语音识别结果的测评方法,其特征在于,所述基于预置的序列函数获取所述待检测文本中的待检测词序列,根据预置的标准词序列对所述待检测词序列进行校对,并在所述待检测词序列中进行校对标记,得到校对文本包括:
基于预置的序列函数获取所述待检测文本中的待检测词序列,并将所述待检测词序列与预置的标准词序列进行比对,判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系;
若所述待检测词序列的字符数大于所述预置的标准词序列的字符数,则在所述待检测词序列的位置上标记预置的插入字符;
若所述待检测词序列的字符数小于所述预置的标准词序列的字符数,则在所述待检测词序列的位置上标记预置的删除字符;
若所述待检测词序列的字符数等于所述预置的标准词序列的字符数,则判断所述待检测词序列与所述预置的标准词序列是否相同;
若所述待检测词序列与所述预置的标准词序列不相同,则在所述待检测词序列的位置上标记预置的替换字符,将校对标记后的待检测文本确定为校对文本。
3.根据权利要求2所述的语音识别结果的测评方法,其特征在于,所述基于预置的序列函数获取所述待检测文本中的待检测词序列,并将所述待检测词序列与预置的标准词序列进行比对,判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系包括:
获取所述待检测文本中的基础文本字符以及初始观测序列,所述初始观测序列用于指示所述基础文本字符的文本字符序列;
通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列,所述预测观测序列用于指示所述文本字符序列的组合;
利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下,发生按照所述预测观测序列进行排列的基础条件概率,其中,预置的条件概率公式为:
S*=argmaxP(S|O),其中,S*为目标观测序列,S为预测观测序列,且S=(s1,s2,…,sT),T为初始观测序列的长度,s1为按照预测观测序列划分基础文本字符的第一个词序列,O为初始观测序列,且O=(o1,o2,…,oT),o1为按照初始观测序列划分基础文本字符的第一个字序列;
将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列;
按照所述目标观测序列对所述基础文本字符进行划分,得到待检测词序列;
将所述待检测词序列与预置的标准词序列进行比对,判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。
4.根据权利要求1所述的语音识别结果的测评方法,其特征在于,所述获取视频回访项目中的初始语音,并基于语音识别函数对所述初始语音进行转化,得到转化过后的初始文本包括:
获取视频回访项目中的初始语音,并将所述初始语音输入至语音识别函数中,通过所述语音识别函数提取所述初始语音中的语音特征;
通过预置的转译模型将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成语音音节的最小语音...
【专利技术属性】
技术研发人员:陈益,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。