迭代式大规模发音词典构建方法及装置制造方法及图纸

技术编号：27747180 阅读：17 留言：0更新日期：2021-03-19 13:42

本发明专利技术公开了一种迭代式大规模发音词典构建方法及装置，其中该方法包括：根据文本生数据生成词条序列；根据音频生数据生成音标序列；根据词条序列，利用G2P模型生成二元组<词条，音标>；根据音标序列，利用P2G模型生成二元组<音标，词条>；计算两个二元组之间的匹配度，并与预设匹配度进行比较，对匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>进行鉴别性样本抽取，获得鉴别性样本；获取领域专家对鉴别性样本的标注和校正，将标注和校正后的二元组<词条，音标>和二元组<音标，词条>存入多层次大规模发音词典。本发明专利技术能够快速有效地构建大规模发音词典，提升语音识别系统的工作效率并降低人工成本。

全部详细技术资料下载

【技术实现步骤摘要】
迭代式大规模发音词典构建方法及装置
本专利技术涉及词典构建
，尤其涉及迭代式大规模发音词典构建方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着科技的不断创新，语音领域也得到了飞速发展，同时也带动了语言识别系统的不断更新和迭代。语音识别系统的组成有三个部分，分别是声学模型、发音词典和语言模型，其中，发音词典是语音识别系统中非常重要的一个部分，它是连接声学模型和语音模型的桥梁。因此对于语音识别系统来说，如何构建发音词典是一项重大且艰巨的任务，同时发音词典的构建规模大小直接制约着整个语音识别系统的准确性。以往的发音词典构建方法主要分为三种，一种是基于规则、一种是基于机器学习、以及基于神经网络，这些构建方法通常都是根据词条的音标特征来制定发音词典的规则、训练神经网络的模型。受限于模型规模，对于大规模发音词典的构建任务来说，人工收集和构建发音词典的词条和音标数据需要耗费大量的人力物力，使得最终生成的发音词典的一般只有几万个词条左右。因此迫切需要一种能够快速有效地构建大规模发音词典的方法，来提升语音识别系统的工作效率并降低人工成本。
技术实现思路
本专利技术实施例提供一种迭代式大规模发音词典构建方法，用以快速有效地构建大规模发音词典，提升语音识别系统的工作效率并降低人工成本，该方法包括：对输入的文本生数据进行预处理，生成词条序列；对输入的音频生数据进行预处理，生成音标序列；...

【技术保护点】
1.一种迭代式大规模发音词典构建方法，其特征在于，包括：/n对输入的文本生数据进行预处理，生成词条序列；/n对输入的音频生数据进行预处理，生成音标序列；/n基于G2P模型对词条序列进行处理获得音标序列，生成二元组<词条，音标>；/n基于P2G模型对音标序列进行处理获得词条序列，生成二元组<音标，词条>；/n计算二元组<词条，音标>和二元组<音标，词条>之间的匹配度；/n将所述匹配度与预设匹配度进行比较，对所述匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>进行鉴别性样本抽取，获得鉴别性样本；/n获取领域专家对所述鉴别性样本的标注和校正，将标注和校正后的二元组<词条，音标>和二元组<音标，词条>存入多层次大规模发音词典。/n

【技术特征摘要】
1.一种迭代式大规模发音词典构建方法，其特征在于，包括：
对输入的文本生数据进行预处理，生成词条序列；
对输入的音频生数据进行预处理，生成音标序列；
基于G2P模型对词条序列进行处理获得音标序列，生成二元组<词条，音标>；
基于P2G模型对音标序列进行处理获得词条序列，生成二元组<音标，词条>；
计算二元组<词条，音标>和二元组<音标，词条>之间的匹配度；
将所述匹配度与预设匹配度进行比较，对所述匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>进行鉴别性样本抽取，获得鉴别性样本；
获取领域专家对所述鉴别性样本的标注和校正，将标注和校正后的二元组<词条，音标>和二元组<音标，词条>存入多层次大规模发音词典。

2.如权利要求1所述的迭代式大规模发音词典构建方法，其特征在于，对输入的文本生数据进行预处理，生成词条序列，包括：
对输入的文本生数据进行清洗和标准化处理，生成词条序列；
对输入的音频生数据进行预处理，生成音标序列，包括：
对输入的音频生数据进行音频去噪和音素切分操作，生成音标序列。

3.如权利要求1所述的迭代式大规模发音词典构建方法，其特征在于，还包括：若所述匹配度大于预设匹配度，则将对应的二元组<词条，音标>和二元组<音标，词条>存入多层次大规模发音词典。

4.如权利要求1所述的迭代式大规模发音词典构建方法，其特征在于，对所述匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>进行鉴别性样本抽取，获得鉴别性样本，包括：
计算所述匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>的信息熵；
将所述信息熵与预设信息熵阈值比较，将所述信息熵大于预设信息熵阈值对应的二元组<词条，音标>和二元组<音标，词条>作为鉴别性样本。

5.如权利要求1所述的迭代式大规模发音词典构建方法，其特征在于，还包括：
利用标注和校正后的二元组<词条，音标>和二元组<音标，词条>对G2P模型和P2G模型进行迭代式训练。

6.如权利要求1所述的迭代式大规模...

【专利技术属性】
技术研发人员：王治愚，王大亮，王丽媛，齐红威，
申请(专利权)人：数据堂北京科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人