【技术实现步骤摘要】
构建语言模型及语音识别的方法、装置、设备及存储介质
[0001]本申请涉及语音识别
,尤其涉及一种构建语言模型的方法、一种语音识别的方法、一种构建语言模型的装置、一种语音识别的装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。
技术介绍
[0002]命名实体识别(Named Entities Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)的一个基础任务,其目的是识别输入文本中的人名、地名、组织机构名或根据特定需求划分的命名实体。NER技术在信息抽取、信息检索、智能问答、机器翻译等领域中都有广泛应用。
[0003]在相关技术中,可以采用基于命名实体建模生成的语言模型(language model,简称LM)进行命名实体识别。针对命名实体的建模,相关技术中提出如下两种方法:
[0004]1.增加相关语料。搜集或制作含有某个命名实体的语料,扩充训练数据,从而达到增加命名实体识别概率的目的。但这种方法的缺点是:1)工作量大,处理繁杂 ...
【技术保护点】
【技术特征摘要】
1.一种构建语言模型的方法,其特征在于,所述方法包括:获取类实体语言模型,其中,所述类实体语言模型中包括属于同一命名实体类别的多个指定命名实体;将训练语料中的所述指定命名实体替换为所述命名实体类别,获得新训练语料;采用所述新训练语料构建主语言模型;将所述类实体语言模型与所述主语言模型结合,构建目标语言模型。2.根据权利要求1所述的方法,其特征在于,所述主语言模型为N
‑
gram模型,所述类实体语言模型为类实体有限自动机FA网络模型;所述将所述类实体语言模型与所述主语言模型结合,构建目标语言模型,包括:将所述主语言模型转换为主FA网络模型;基于所述命名实体类别,将所述类实体FA网络模型与所述主FA网络模型结合,构建目标语言模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述命名实体类别,将所述类实体FA网络模型与所述主FA网络模型结合,构建目标语言模型,包括:从所述主FA网络模型中识别出输出标签为所述命名实体类别的弧,作为目标弧,并获取所述目标弧在所述主FA网络模型中指向的状态,作为后向接入状态;将所述目标弧重定向至所述类实体FA网络模型的起始状态中,并将所述目标弧中的所述输出标签替换为第一指定标签;在所述类实体FA网络模型的各结束状态中添加指向所述后向接入状态的弧,并将所述弧的输入标签和输出标签设定为第二指定标签;基于最终得到的FA网络模型确定目标语言模型。4.根据权利要求3所述的方法,其特征在于,所述基于最终得到的FA网络模型确定目标语言模型,包括:将最终得到的FA网络模型作为所述目标语言模型;或者,将所述最终得到的FA网络模型转换成的N
‑
gram模型作为目标语言模型。5.根据权利要求2
‑
4任一项所述的方法,其特征在于,所述类实体FA网络模型有多个,其中,各个类实体FA网络模型具有对应的类别信息;所述将所述类实体FA网络模型与所述主FA网络模型结合,构建目标语言模型,包括:从所述多个类实体FA网络模型中随机选取一个类实体FA网络模型插入至所述主FA网络模型中,生成第一中间FA网络模型;选取下一类实体FA网络模型插入至所述第一中间FA网络模型中,生成第二中间FA网络模型,以此类推,直到所有的类实体F...
【专利技术属性】
技术研发人员:陈宇,吴振宗,刘柏基,曾志平,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。