【技术实现步骤摘要】
语言模型训练系统、语音识别系统及相应方法
本专利技术涉及语音识别领域,特别是涉及一种语言模型训练系统及方法,以及一种语音识别系统及方法。
技术介绍
语言模型建模是语音识别技术中的组成部分,主要是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。语言模型建模的关键在于,用于训练的文本语料和需要识别的语音分布相近,基于此,训练得到的语言模型才能更好地描述用户语音输入,进而实现语音搜索等实际操作。但是,现有的语言模型训练技术基于文本检索日志,但文本检索与语音检索在表达上毕竟存在一定差异,在此基础上进行的语音识别技术的识别准确率不够高,存在一定的失配情况。
技术实现思路
本专利技术提供了一种语言模型训练系统及方法,以及一种语音识别系统及方法,用以解决基于现有语言模型训练技术的语音识别技术的识别准确率不够高,存在一定失配情况的问题。具体技术方案如下:一种语言模型训练系统,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语 ...
【技术保护点】
一种语言模型训练系统,其特征在于,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合 ...
【技术特征摘要】
1.一种语言模型训练系统,其特征在于,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;第三语言模型库,用于存储结合后得到的语言模型。2.根据权利要求1所述的系统,其特征在于,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。3.根据权利要求2所述的系统,其特征在于,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。4.根据权利要求3所述的系统,其特征在于,所述λ2大于所述λ1。5.一种语言模型训练...
【专利技术属性】
技术研发人员:曹立新,万广鲁,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。