一种语音识别中添加标点符号的方法及语音识别装置制造方法及图纸

技术编号:28782180 阅读:29 留言:0更新日期:2021-06-09 11:14
一种语音识别中添加标点符号的方法及语音识别装置。该方法包括:判别器判别并提取语音信号的语音特征,并获得语音数据流;语音解码器对所述语音数据流进行解码,并根据一个可搜索的状态空间以及所述语音特征确定第一符号;所述空间状态包括发音词典、声学模型和语言模型;所述发音词典包含单词及其该单词对应发音的集合;深度神经网络分类器根据上下文对所述第一符号做进一步判别,并输出标注第二符号的文本信息;其中,该深度神经网络分类器为预先训练的快速深度神经网络分类器。该方案可提升语音识别中标点符号添加的准确率。提升语音识别中标点符号添加的准确率。提升语音识别中标点符号添加的准确率。

【技术实现步骤摘要】
一种语音识别中添加标点符号的方法及语音识别装置


[0001]本专利技术涉及音频
,尤其涉及一种语音识别的


技术介绍

[0002]随着通信技术以及信息处理技术的长足发展与设备计算力的日渐充足,语音识别技术的应用也越来越广泛,如:同声翻译,语音转写,人机交互,语音控制等。
[0003]但,传统的语音识别技术中,仅针对实际文本内容与其对应的声音进行建模并分析识别语音内容,对于标点符号却难以同有声文本一样进行建模,因此往往对标签符号忽略不计。因此,传统的语音识别技术直接输出的结果通常为一长串字符或单词信息构成的文本。随着语音长度的增加,文本阅读难度也随之提升。因此,我们需要对语音识别系统的输出结果自动添加标点符号处理,提高易懂性和效率。

技术实现思路

[0004]本申请提供一种可在语音识别装置输出的文本信息中自动添加标点符号的一种语音识别中添加标点符号的方法及语音识别装置。
[0005]本申请提供以下技术方案:
[0006]一方面,提供一种语音识别中添加标点符号的方法,其包括:判别器判别并提取语音信号的语音特征,并获得语音数据流;语音解码器对所述语音数据流进行解码,并根据一个可搜索的状态空间以及所述语音特征确定第一符号;所述空间状态包括发音词典、声学模型和语言模型;所述发音词典包含单词及其该单词对应发音的集合;深度神经网络分类器根据上下文对所述第一符号做进一步判别,并输出标注第二符号的文本信息;其中,该深度神经网络分类器为预先训练的快速深度神经网络分类器。
[0007]又一方面,提供一种语音识别装置,其包括:判别器,用于判别并提取语音信号的语音特征,并获得语音数据流;语音解码器,用于对所述语音数据流进行解码,并根据一个可搜索的状态空间以及所述语音特征确定第一符号;所述空间状态包括发音词典、声学模型和语言模型;所述发音词典包含单词及其该单词对应发音的集合;深度神经网络分类器,用于根据上下文对所述第一符号做进一步判别,并输出标注第二符号的文本信息;其中,该深度神经网络分类器为预先训练的快速深度神经网络分类器。
[0008]又一方面,提供一种语音识别装置,其包括:处理器以及存储器;所述处理器调用所述存储器中的程序,执行上述任意一个语音识别中添加标点符号的方法。
[0009]又一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别中添加标点符号的方法的程序,所述语音识别中添加标点符号的方法的程序被处理器执行时实现执行上述任意一个语音识别中添加标点符号的方法。
[0010]本申请的有益效果在于,从语音信号的语音特征,语言模型和DNN分类器三部分同时出发,来解决针对语音识别结果自动添加标点符号的问题,在通过语音特征以及语言模型初步给出标点符号后,再经过DNN分类器对其进行进一步优化,输出包含优化后的标点符
号的文本信息。提升了标点符号添加的准确率,从而提升了语音识别输出的文本的可读性和易读性,提升用户体验。
附图说明
[0011]图1为本申请实施方式应用的系统架构示意图。
[0012]图2为本申请实施方式一提供的一种语音识别中添加标点符号的方法的流程图。
[0013]图3为本申请实施方式一中训练发音词典的流程图。
[0014]图4为本申请实施方式一中训练语言模型的流程图。
[0015]图5为本申请实施方式一中训练DNN分类器的流程图。
[0016]图6为本申请实施方式二提供的一种语音识别装置的方框示意图。
[0017]图7本申请实施方式三提供的一种语音识别装置的结构示意图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施方式,对本申请进行进一步详细说明。应当理解,此处所描述的实施方式仅用以解释本申请,并不用于限定本申请。但是,本申请可以以多种不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本专利技术的公开内容的理解更加透彻全面。
[0019]除非另有定义,本文所实用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本申请。
[0020]应理解,本文中术语“系统”或“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0021]请参见图1,其为本申请实施方式应用的语音识别系统架构100的系统架构示意图。该语音识别系统架构100包括:声学模型110、发音词典120、语言模型130、对信号本身特征进行分析抓取的判别器140、语音解码器150和DNN(Deep Neural Networks,深度神经网络)分类器16。该语音识别系统架构100包含了完整的语音识别过程。
[0022]该声学模型110、该发音词典120和该语言模型130共同构成语音识别系统的主体。该发音词典120包含该语音识别系统架构100所能处理的单词的集合,并标明其发音。通过该发音词典120获取该声学模型110的建模单元和该语言模型130的建模单元之间的映射关系,从而把该声学模型110和该语言模型130联系起来,并与该发音词典120 共同组成一个可搜索的状态空间用于该语音解码器150进行解码工作。
[0023]输入的语音信号经过该判别器140,该判别器140判别并提取该语音信号的语音特征,并获得语音数据流。该语音解码器150对该语音数据流进行解码,并根据该状态空间以及该语音特征,确定该语音信息的第一符号。该DNN分类器160是预先训练好的快速DNN分类器,其对该语音解码器150对初步标注的标点符号做进一步判别,对该第一符号进行优化后输出包含第二符号的文本信息。具体而言,该DNN分类器160结合上下文识别文本特征化向量和语音信息特征向量,对该语音解码器150第一符号做进一步判别。从而,实现对语音识
别结果自动添加标点符号的功能,并提升了标点符号识别的准确率。
[0024]本申请实施例可以应用于各种带有语音识别功能的装置。例如:录音笔、音频会议终端、智能会议记录装置或者有语音识别功能的智能电子设备等。以下将通过具体的实施方式对本申请的技术方案进行阐述。
[0025]实施方式一
[0026]请参看图2,为本申请实施方式一提供的一种语音识别中添加标点符号的方法。该方法包括:
[0027]S210,判别器判别并提取语音信号的语音特征,并获得语音数据流;其中,该判决器是对信号本身的特征进行分析;可选的,该判决器提取的语音特征包括无人声语音片段的时长、以及该无人声语音片段的时间戳;
[0028]S220,语音解码器对所述语音数据流进行解码,并根据一个可搜索的状态空间以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别中添加标点符号的方法,其特征在于,所述方法包括:判别器判别并提取语音信号的语音特征,并获得语音数据流;语音解码器对所述语音数据流进行解码,并根据一个可搜索的状态空间以及所述语音特征确定第一符号;所述空间状态包括发音词典、声学模型和语言模型;所述发音词典包含单词及其该单词对应发音的集合;深度神经网络分类器根据上下文对所述第一符号做进一步判别,并输出标注第二符号的文本信息;其中,该深度神经网络分类器为预先训练的快速深度神经网络分类器。2.如权利要求1所述的方法,其特征在于,所述语音特征包括无人声语音片段的时长、以及所述无人声语音片段的时间戳。3.如权利要求2所述的方法,其特征在于,所述判别器判别并提取语音信号的语音特征,包括接收所述语音信息后,利用人声识别技术确定无人声语音片段的时长;将所述时间戳的信息向量化加入根据该无人声语音片段的特征向量里,化为加权有限状态机进行计算。4.如权利要求2所述的方法,其特征在于,所述根据一个可搜索的状态空间以及所述语音特征确定第一符号,包括:根据所述无人声语音片段的时长确定所述无人声语音片段是标点符号还是无意义静音段;根据所述状态空间识别所述语音数据流中的初步符号;根据所述时间戳,确认所述初步符号中与所述无人声语音片段的标点符号对应的标点符号为所述第一符号。5.如权利要求1所述的方法,其特征在于,所述发音词典还包括以下三类静音词:第一静音词对应句中标点符号,第二静音词对应句尾标点符号,第三静音词对应无意义静音词;所述第一符号用于标注所述语音信息中的静音词。6.如权利要求1所述的方法,其特征在于,所述语言模型为预先训练的模型,通过以下训练方法获得:基于经过规范化处理的文本语料,统计出现频率最高的M个单词和N个目标识别范围内的标点符号;基于所述出现频率最高的所述M个单词和所述N个目标识别范围内的标点符号构造训练词汇表;M、N均为大于等于1的正整数;根据所述训练词汇表训练所述语言模型。7.如权利要求1所述的方法,其特征在于,所述深度神经网络分类器通过以下方法训练获得:对经过规范化处理的文本语料中的目标标点符号进行分类;将分类后的所述文本语料送入长短期记忆神经网络中进行上下文特征提取训练,获得判别模型。8.如权利要求1

7中任意一项所述的方法,其特征在于,所述发音词典、所述声学模型的建模单元和所述语言模型的建模单元之间有映射关系。9.一种语音识别装置,其特征在于,所述语音识别装置包括:
判别器,用于判别并提取语音信号的语音特征,并获得语音数据流;语音解码器,用于对所述语音数据流进行解...

【专利技术属性】
技术研发人员:陈文明尚天赐邓高锋张世明吕周谨
申请(专利权)人:虫洞创新平台深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1