迭代式大规模发音词典构建方法及装置制造方法及图纸

技术编号:27747180 阅读:17 留言:0更新日期:2021-03-19 13:42
本发明专利技术公开了一种迭代式大规模发音词典构建方法及装置,其中该方法包括:根据文本生数据生成词条序列;根据音频生数据生成音标序列;根据词条序列,利用G2P模型生成二元组<词条,音标>;根据音标序列,利用P2G模型生成二元组<音标,词条>;计算两个二元组之间的匹配度,并与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。本发明专利技术能够快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。

【技术实现步骤摘要】
迭代式大规模发音词典构建方法及装置
本专利技术涉及词典构建
,尤其涉及迭代式大规模发音词典构建方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着科技的不断创新,语音领域也得到了飞速发展,同时也带动了语言识别系统的不断更新和迭代。语音识别系统的组成有三个部分,分别是声学模型、发音词典和语言模型,其中,发音词典是语音识别系统中非常重要的一个部分,它是连接声学模型和语音模型的桥梁。因此对于语音识别系统来说,如何构建发音词典是一项重大且艰巨的任务,同时发音词典的构建规模大小直接制约着整个语音识别系统的准确性。以往的发音词典构建方法主要分为三种,一种是基于规则、一种是基于机器学习、以及基于神经网络,这些构建方法通常都是根据词条的音标特征来制定发音词典的规则、训练神经网络的模型。受限于模型规模,对于大规模发音词典的构建任务来说,人工收集和构建发音词典的词条和音标数据需要耗费大量的人力物力,使得最终生成的发音词典的一般只有几万个词条左右。因此迫切需要一种能够快速有效地构建大规模发音词典的方法,来提升语音识别系统的工作效率并降低人工成本。
技术实现思路
本专利技术实施例提供一种迭代式大规模发音词典构建方法,用以快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本,该方法包括:对输入的文本生数据进行预处理,生成词条序列;对输入的音频生数据进行预处理,生成音标序列;基于G2P模型对词条序列进行处理获得音标序列,生成二元组<词条,音标>;基于P2G模型对音标序列进行处理获得词条序列,生成二元组<音标,词条>;计算二元组<词条,音标>和二元组<音标,词条>之间的匹配度;将所述匹配度与预设匹配度进行比较,对所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对所述鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。本专利技术实施例还提供一种迭代式大规模发音词典构建装置,用以快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本,该装置包括:数据预处理模块,用于对输入的文本生数据进行预处理,生成词条序列;对输入的音频生数据进行预处理,生成音标序列;G2P模块,用于基于G2P模型对词条序列进行处理获得音标序列,生成二元组<词条,音标>;P2G模块,用于基于P2G模型对音标序列进行处理获得词条序列,生成二元组<音标,词条>;主动学习模块,用于计算二元组<词条,音标>和二元组<音标,词条>之间的匹配度;将所述匹配度与预设匹配度进行比较,对所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对所述鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述迭代式大规模发音词典构建方法。本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述迭代式大规模发音词典构建方法的步骤。本专利技术实施例中,与现有技术中根据词条的音标特征来制定发音词典的规则、训练神经网络的模型和人工收集和构建发音词典的词条和音标数据需要耗费大量的人力物力的技术方案相比,本专利技术通过对输入的文本生数据进行预处理,生成词条序列;对输入的音频生数据进行预处理,生成音标序列;基于G2P模型对词条序列进行处理获得音标序列,生成二元组<词条,音标>;基于P2G模型对音标序列进行处理获得词条序列,生成二元组<音标,词条>;计算二元组<词条,音标>和二元组<音标,词条>之间的匹配度;将匹配度与预设匹配度进行比较,对匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;获取领域专家对所述鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典,可以快速有效地构建大规模发音词典,提升语音识别系统的工作效率并降低人工成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中迭代式大规模发音词典构建装置结构框图;图2为本专利技术实施例中迭代式大规模发音词典构建方法流程图;图3为本专利技术实施例中数据预处理示意图;图4为本专利技术实施例中G2P、P2G模型推断示意图;图5为本专利技术实施例中二元组匹配度计算示意图;图6为本专利技术实施例中鉴别性样本抽取示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。专业名词解释:语音识别:指将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列等,使得人机交互界面更加自然和容易使用;迭代式:指训练模型的方式,它是一种循环往复的过程,不断利用约束条件制约模型的训练向着预定的方向优化;发音词典:指语音识别系统中的字典,用来描述每一个词条及其对应的发音关系,它包含了从单词到音标之间的映射;G2P(Grapheme-to-Phoneme,字素到音素):指发音词典的生成模型,它的输出结果是<词条,音标>二元组,用于进行发音词典的推断;P2G(Phoneme-to-Grapheme,音素到字素):指相对于G2P模型和训练模型,它的模型输出结果是<音标,词条>二元组,用于进行发音词典的推断;鉴别性样本:指经过二元组匹配度计算之后选取的,且包含信息量最大的样本;人在回路:指主动学习模块中的领域专家标注和专家校正知识库的过程,特指专家参与的部分在整个发音词典构建系统回路中的现象。本专利技术提出一种迭代式大规模发音词典构建装置,如图1所示,其包括了以下模块:数据预处理模块,用于对输入的文本生数据进行预处理,本文档来自技高网...

【技术保护点】
1.一种迭代式大规模发音词典构建方法,其特征在于,包括:/n对输入的文本生数据进行预处理,生成词条序列;/n对输入的音频生数据进行预处理,生成音标序列;/n基于G2P模型对词条序列进行处理获得音标序列,生成二元组<词条,音标>;/n基于P2G模型对音标序列进行处理获得词条序列,生成二元组<音标,词条>;/n计算二元组<词条,音标>和二元组<音标,词条>之间的匹配度;/n将所述匹配度与预设匹配度进行比较,对所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;/n获取领域专家对所述鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。/n

【技术特征摘要】
1.一种迭代式大规模发音词典构建方法,其特征在于,包括:
对输入的文本生数据进行预处理,生成词条序列;
对输入的音频生数据进行预处理,生成音标序列;
基于G2P模型对词条序列进行处理获得音标序列,生成二元组<词条,音标>;
基于P2G模型对音标序列进行处理获得词条序列,生成二元组<音标,词条>;
计算二元组<词条,音标>和二元组<音标,词条>之间的匹配度;
将所述匹配度与预设匹配度进行比较,对所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本;
获取领域专家对所述鉴别性样本的标注和校正,将标注和校正后的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。


2.如权利要求1所述的迭代式大规模发音词典构建方法,其特征在于,对输入的文本生数据进行预处理,生成词条序列,包括:
对输入的文本生数据进行清洗和标准化处理,生成词条序列;
对输入的音频生数据进行预处理,生成音标序列,包括:
对输入的音频生数据进行音频去噪和音素切分操作,生成音标序列。


3.如权利要求1所述的迭代式大规模发音词典构建方法,其特征在于,还包括:若所述匹配度大于预设匹配度,则将对应的二元组<词条,音标>和二元组<音标,词条>存入多层次大规模发音词典。


4.如权利要求1所述的迭代式大规模发音词典构建方法,其特征在于,对所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>进行鉴别性样本抽取,获得鉴别性样本,包括:
计算所述匹配度小于预设匹配度对应的二元组<词条,音标>和二元组<音标,词条>的信息熵;
将所述信息熵与预设信息熵阈值比较,将所述信息熵大于预设信息熵阈值对应的二元组<词条,音标>和二元组<音标,词条>作为鉴别性样本。


5.如权利要求1所述的迭代式大规模发音词典构建方法,其特征在于,还包括:
利用标注和校正后的二元组<词条,音标>和二元组<音标,词条>对G2P模型和P2G模型进行迭代式训练。


6.如权利要求1所述的迭代式大规模...

【专利技术属性】
技术研发人员:王治愚王大亮王丽媛齐红威
申请(专利权)人:数据堂北京科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1