基于语音识别结果的匹配方法组成比例

技术编号：29761523 阅读：21 留言：0更新日期：2021-08-20 21:15

本发明专利技术公开了一种基于语音识别结果的匹配方法，包括：将参考文字序列转换为参考符号序列；将语音识别结果转换为识别符号序列；其中，语音识别结果为N条最优路径的词序列或者单条最优路径的词序列；参考符号序列及识别符号序列为词序列、字序列或者音子序列；将识别符号序列与参考符号序列进行序列匹配处理并计算匹配得分，将匹配得分最高的匹配路径对应的识别符号序列作为匹配结果。采用本发明专利技术的匹配方法能够避免同音误识、发音偏差以及识别错误所带来的匹配错误，有效地提高了匹配精度，并对识别错误具有一定的容错性，对于匹配序列中间存在内容不匹配的情况也能够提供相似性评估。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音识别结果的匹配方法
本专利技术涉及关键词匹配
，特别涉及一种基于语音识别结果的匹配方法。
技术介绍
现有技术中，关键词匹配技术通常采用关键词匹配算法或者基于编辑距离的模糊匹配算法来进行匹配处理；其中，关键词匹配算法具有严格约束的限制，即只有当整个字符串完全一致时才能匹配成功，只要存在不匹配的内容都会匹配失败，因此缺乏容错性；基于编辑距离的模糊匹配算法通常考虑整个字符串的模糊匹配，在口语语音识别结果与目标内容的匹配场景中匹配结果往往不能真实反映匹配程度。口语表达有随意性且跟说话人的地域、年龄以及表达习惯相关；口语语音通话过程中通常会有一些前置功能词汇、后置功能词汇或者插入功能词汇，这些功能词汇不影响整体表达内容，但会严重干扰匹配效果；同时，语音识别系统输出结果存在识别错误，识别错误包括替代错误、插入错误和删除错误，以上的识别错误也会严重影响匹配效果。
技术实现思路
基于此，为解决现有技术中的技术问题，特提出了一种基于语音识别结果的匹配方法，包括：将参考文字序列转换为参考符号序列；将语音识别结果转换为识别符号序列；其中，所述语音识别结果为N条最优路径的词序列或者单条最优路径的词序列；所述参考符号序列及所述识别符号序列为词序列、字序列或者音子序列；将所述识别符号序列与所述参考符号序列进行序列匹配处理并计算匹配得分，将匹配得分最高的匹配路径对应的识别符号序列作为序列匹配结果。在一种实施例中，所述参考符号序列及所述识别符号序列的匹配粒度包括词匹配...

【技术保护点】
1.一种基于语音识别结果的匹配方法，其特征在于，包括：/n将参考文字序列转换为参考符号序列；/n将语音识别结果转换为识别符号序列；其中，所述语音识别结果为N条最优路径的词序列或者单条最优路径的词序列；/n所述参考符号序列及所述识别符号序列为词序列、字序列或者音子序列；/n将所述识别符号序列与所述参考符号序列进行序列匹配处理并计算匹配得分，将匹配得分最高的匹配路径对应的识别符号序列作为序列匹配结果。/n

【技术特征摘要】
1.一种基于语音识别结果的匹配方法，其特征在于，包括：
将参考文字序列转换为参考符号序列；
将语音识别结果转换为识别符号序列；其中，所述语音识别结果为N条最优路径的词序列或者单条最优路径的词序列；
所述参考符号序列及所述识别符号序列为词序列、字序列或者音子序列；
将所述识别符号序列与所述参考符号序列进行序列匹配处理并计算匹配得分，将匹配得分最高的匹配路径对应的识别符号序列作为序列匹配结果。

2.根据权利要求1所述的匹配方法，其特征在于，
其中，所述参考符号序列及所述识别符号序列的匹配粒度包括词匹配、字匹配、音子匹配；
当匹配粒度为词匹配时，所述参考符号序列为词序列，所述识别符号序列为词序列；当匹配粒度为字匹配时，所述参考符号序列为字序列，所述识别符号序列为字序列；当匹配粒度为音子匹配时，所述参考符号序列为音子序列，所述识别符号序列为音子序列，所述参考符号序列及所述识别符号序列带有声调信息。

3.根据权利要求1所述的匹配方法，其特征在于，
其中，当语音识别结果为N条最优路径的词序列时，将语音识别结果转换为对应的N个识别符号序列；当语音识别结果为单条最优路径的词序列时，则将语音识别结果转换为对应的单个识别符号序列。

4.根据权利要求1所述的匹配方法，其特征在于，
其中，对参考符号序列及识别符号序列进行序列匹配处理并计算匹配得分，具体包括：
调用序列对齐算法，获取参考符号序列及识别符号序列的对齐信息；
序列对齐算法根据对齐信息选择忽略参考符号序列及识别符号序列开始及结束位置处未对齐部分，保留参考符号序列及识别符号序列的中间对齐部分；
计算参考符号序列及识别符号序列中间对齐部分的匹配得分。

5.根据权利要求4所述的匹配方法，其特征在于，
其中，所述序列对齐算法为改进型Levenshtein算法，所述序列对齐算法忽略对齐序列开始位置到第一个匹配点的惩罚参数，并忽略对齐序列最后一个匹配点到结束位置的惩罚参数。

6.根据权利要求5所述的匹配方法，其特征在于，
其中，所述序列对齐算法包括：
初始化序列对齐算法；计算从开始位置到任意子串的匹配距离；进行回溯并找出最佳匹配路径，同时记录对齐处理过程。

7.根据权利要求4所述的匹配方法，其特征在于，
其中，计算参考符号序列及识别符号序列中间对齐部分的匹配得分，具体包括：
所述匹配得分包括替代得分CorrectScore、插入得分InsertScore、删除得分DeleteScore；初始化所述替代得分、所述插入得分、所述删除得分，即设置CorrectScore=0，InsertScore=0，DeleteScore=0；
当参考符号序列及识别符号序列的匹配粒度为词匹配或字匹配时，逐个比对参考符号序列及识别符号...

【专利技术属性】
技术研发人员：庞在虎，高懿，陈博，
申请(专利权)人：北京灵伴即时智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人