【技术实现步骤摘要】
特定领域语言模型生成方法及语音数据标注系统
本专利技术涉及语音识别
,更具体地说,涉及一种特定领域语言模型生成方法以及一种语音数据标注系统。
技术介绍
在语音识别研究领域,语料资源的标注以及信息的校对工作一直是困扰研究人员的难题。因为这样的工作通常涉及繁琐的人力操作,而并没有太多的专业性要求。一种缩减标注工作量的做法是,先将语音数据由已有的语音识别系统识别为文本,如果识别出的文本和原始文本一致,就认为该条标注通过质检。然而,人类语言博大精深,不同专业领域的人甚至无法理解对方在说什么。当文本标注库中的内容是关于一些特定的细分领域时,用一个规范的通用语言模型来进行语音识别,识别效果会大打折扣,也就会出现真实标注正确而识别错误的情况,无法给标注质检工作提供有效参考。
技术实现思路
本专利技术的目的在于提供一种特定领域语言模型的生成方法。为实现上述目的,本专利技术提供如下各种技术方案。一种特定领域语言模型生成方法,包括:a)、基于第一文本集建立第一语言模型;b)、基于第一语言模型来进 ...
【技术保护点】
1.一种特定领域语言模型生成方法,包括:/na)、基于第一文本集建立第一语言模型;/nb)、基于所述第一语言模型来进行特定领域的语料扩展,以获得第二文本集;/nc)、基于所述第二文本集建立第二语言模型;以及/nd)、针对所述第一文本集和所述第二文本集的重合词元,将所述重合词元在所述第一语言模型上的词概率与其在所述第二语言模型上的词概率进行插值运算,以建立第三语言模型。/n
【技术特征摘要】
1.一种特定领域语言模型生成方法,包括:
a)、基于第一文本集建立第一语言模型;
b)、基于所述第一语言模型来进行特定领域的语料扩展,以获得第二文本集;
c)、基于所述第二文本集建立第二语言模型;以及
d)、针对所述第一文本集和所述第二文本集的重合词元,将所述重合词元在所述第一语言模型上的词概率与其在所述第二语言模型上的词概率进行插值运算,以建立第三语言模型。
2.根据权利要求1所述的方法,其特征在于,步骤a)具体包括:
利用一种通用语言模型对所述第一文本集中的句子进行分词。
3.根据权利要求1所述的方法,其特征在于,步骤b)具体包括:
利用所述第一语言模型分别计算所述第一文本集中的各句子的困惑度;
从困惑度不低于困惑度阈值的句子中提取出至少一条专业词汇;
利用所述专业词汇来进行所述特定领域的语料扩展。
4.根据权利要求1所述的方法,其特征在于,步骤c)具体包括:
将所述第一文本集的至少一部分和所述第二文本集合并,以生成合并文本集;
利用所述合并文本集来建立并训练所述第二语言模型。
5.根据权利要求1所述的方法,其特征在于,步骤d)具体包括:
基于所述重合词元在所述第一语言模型上的词概率与其在所述第二语言模型上的词概率进行线性插值;
其中,所述线性插值的插值因子至少基于如下项其中之一确定:
验证文本集中的至少一个句子在所述第三语言模型上的困惑度与在所述第一语言模型上的困惑度之间的差异;
测试文本集中的至少一个句子在所述第一语言模型上的困惑度的统计信息。
6.一种语音数据标注方法,包括:
获取语音数据集以及对应的标注文本集;
基于所述标注文本集建立原始语言模型;
基于所述原始语言模型来进行特定领域的语料扩展,以获得特定领域文本集;
基于所述特定领域文本集建立特定领域语言模型;以及
针对所述标注文本集和所述特定领域文本集的重合词元,将所述重合词元在所述原始语言模型上的词概率与其在所述特定领域语言模型上的词概率进行插值运算,以建立融合语言模型;
利用所述融合语言模型对所述语音数据集进行语音识别。
7.根据权利要求6所述的方法,其特征在于,所述进行特定领域的语料扩展包括:
利用所述原始语言模型分...
【专利技术属性】
技术研发人员:孙珏,李洁琼,邵鹏,
申请(专利权)人:蔚来汽车有限公司,
类型:发明
国别省市:中国香港;81
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。