筛选发音词典有效词条的方法及装置制造方法及图纸

技术编号：13585256 阅读：57 留言：0更新日期：2016-08-24 15:30

本发明专利技术实施例提供一种筛选发音词典有效词条的方法及装置。遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。实现了低成本、高效率的发音词典优化，同时提高了发音词典的识别率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及语音
，尤其涉及一种筛选发音词典有效词条的方法及装置。
技术介绍
发音词典是语音识别系统的重要组成部分，描述了词的发音方法。对于汉语普通话，一个常见问题是发音词典经常存在大量冗余条目。这个问题的原因是发音词典通常用计算机通过查词典的方式自动生成，而汉语存在大量的多音字，计算机又难以判断应该使用多音字的哪个发音来生成发音词典，只好使用全部发音来生成发音词典的条目。这导致词典中有大量的条目的发音是实际中用不到的。对于词典冗余问题，若是放任这种冗余，不去处理，将带有冗余的词典应用于语音识别系统，带来的是将是空间和时间的浪费以及一定程度的识别准确率下降。现有技术中，针对词典条冗余的处理方法是人工筛选，删除不需要的发音，这种方法可以有效地解决词典条目冗余问题，但缺点是成本太高，工作量过大。因此，一种高效的筛选发音词典有效词条的方法亟待提出。
技术实现思路
本专利技术实施例提供一种筛选发音词典有效词条的方法及装置，用以解决现有技术中人工筛选发音词典从而解决发音词典资源冗余的高成本、高工作量的缺陷，实现了发音词典有效条目的自动筛选。本专利技术实施例提供一种筛选发音词典有效词条的方法，包括：遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。本专利技术实施例提供一种筛选发音词典有效词条的装置，包括：打分模块，用于遍历语音词典的每一词条，调用统计模型训练模块预先训练的统计模型，并根据...

【技术保护点】
一种筛选发音词典有效词条的方法，其特征在于，包括如下的步骤：遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。

【技术特征摘要】
1.一种筛选发音词典有效词条的方法，其特征在于，包括如下的步骤：遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括，根据语料采用如下的步骤训练所述统计模型：将用于训练的所述语料进行预处理得到语料库，其中，所述预处理包括去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等。3.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：根据所述语料库，将所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元；统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率，以所述统计的结果生成所述统计模型。4.根据权利要求3所述的方法，其特征在于，对所述词条打分，进一步包括：查询所述统计模型，根据所述词条中每个所述单字的平均发音频率获取所述词条的平均分；将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元；从优先级最高的所述字单元开始查询所述统计模型，若查询到所述统计模
\t型中存在所述字单元对应的所述发音频率，则将所述发音频率作为所述单字的分数；否则，将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。5.根据权利要求1或4所述的方法，其特征在于，根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典，进一步包括：设定分数阈值，对于每一组文本相同而发音不同的词条集合，若每个所述单字的分数都小于所述分数阈值，则保留所述平均分最高的词条；否则，删除所述词条集合中包含有单字分数小于所述分数阈值的...

【专利技术属性】
技术研发人员：张俊博，
申请(专利权)人：乐视致新电子科技天津有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人