语音识别文本分段方法及装置制造方法及图纸

技术编号:16482940 阅读:79 留言:0更新日期:2017-10-31 15:33
本发明专利技术公开了一种语音识别文本分段方法及装置,该方法包括:对语音数据进行端点检测,得到各语音段及各语音段的开始帧序号和结束帧序号;对各语音段进行语音识别,得到各语音段对应的识别文本;提取各语音段对应的识别文本的分段特征;利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置;根据分段检测结果对所述语音数据对应的识别文本进行分段。本发明专利技术可以自动地实现对识别文本进行分段,使识别文本的篇章结构更加清晰。

Text segmentation method and device for speech recognition

The invention discloses a speech recognition text segmentation method and device, the method includes: endpoint detection of speech data, each speech segment and each speech segment starting frame number and end frame number; speech recognition on the speech segment, and get the recognition of each text speech segment corresponding to the extracted feature recognition text segment; each speech segment corresponding to the segment; feature extraction and segmentation model using pre built, text recognition of the voice data corresponding to the segmented detection, to identify the location of blocks; according to the detection results of corresponding text recognition section of the speech data segmentation. The method can automatically segment the identification text so as to make the text structure of the text more clear.

【技术实现步骤摘要】
语音识别文本分段方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种语音识别文本分段方法及装置。
技术介绍
随着语音技术的发展,自动语音识别技术已经被广泛地应用于生活的各个领域,将语音转成文本大大方便了人们的生活需求,如将会议录音转成文本作为会议纪要发送给参会人员;将记者采访的录音转成文本,在此基础上编辑成新闻稿等。然而,语音识别得到的识别文本并不像人工编辑的文本有清晰的篇章结构,如段落结构的划分,从而导致用户在查看识别文本时,经常很难找到整个识别文本的重点或主题,尤其是当识别文本较多、并且涉及多个主题时,用户更难理清识别文本的篇章结构,准确找出每个主题的内容。因此,如何将识别文本清晰的展示给用户,帮助用户理解识别文本的内容,对于语音识别文本的展示显得尤为重要。在现有技术中,一般是将语音数据的识别文本直接展示给用户,对识别结果不作处理;或者通过人工来调整识别文本的篇章结构,将调整后的识别文本展示给用户,如根据识别文本的内容,将识别文本划分不同的段落,将调整后的识别文本展示给用户。这种人工调整方式在识别文本较多时,人工工作量大,效率低,并且耗时较长,使识别系统很难达到实用效果。
技术实现思路
本专利技术提供一种语音识别文本分段方法及装置,以解决现有技术由人工调整识别文本的篇章结构工作量大、效率低的问题。为此,本专利技术提供如下技术方案:一种语音识别文本分段方法,包括:对语音数据进行端点检测,得到各语音段及各语音段的开始帧序号和结束帧序号;对各语音段进行语音识别,得到各语音段对应的识别文本;提取各语音段对应的识别文本的分段特征;利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置;根据分段检测结果对所述语音数据对应的识别文本进行分段。优选地,所述方法还包括,按以下方式构建分段模型:收集语音数据;对收集的语音数据进行端点检测,得到各语音段;对各语音段进行语音识别,得到各语音段对应的识别文本;标注各语音段对应的识别文本的分段信息,所述分段信息用于表示当前语音段对应的识别文本的结束位置是否需要分段;提取各语音段对应的识别文本的分段特征;将所述分段特征及所述分段信息作为训练数据,构建分段模型。优选地,所述提取各语音段对应的识别文本的分段特征包括:从所述语音数据的声学上提取各语音段的分段特征,并将该分段特征作为所述语音段对应的识别文本的第一分段特征;和/或从所述识别文本的语义上提取分段特征,并将该分段特征作为所述识别文本的第二分段特征。优选地,所述第一分段特征包括:当前语音段的时长,还包括:当前语音段与前一语音段之间的距离、和/或当前语音段与后一语音段之间的距离;所述从所述语音数据的声学上提取各语音段的分段特征包括:计算当前语音段的结束帧序号与当前语音段的开始帧序号的差值,并将该差值作为当前语音段的时长;还包括:计算当前语音段的开始帧序号与前一语音段的结束帧序号的差值,并将该差值作为当前语音段与前一语音段之间的距离;和/或计算后一语音段的开始帧序号与当前语音段的结束帧序号的差值,并将该差值作为当前语音段与后一语音段之间的距离。优选地,所述第一分段特征还包括:当前语音段的说话人与前一语音段的说话人是否相同、和/或当前语音段的说话人与后一语音段的说话人是否相同;所述从所述语音数据的声学上提取各语音段的分段特征还包括:利用说话人分离技术对所述语音数据进行说话人变化点检测;根据说话人变化点检测结果确定当前语音段的说话人与前一语音段的说话人是否相同、和/或根据说话人变化点检测结果确定当前语音段的说话人与后一语音段的说话人是否相同。优选地,所述第二分段特征包括以下任意一种或多种:前向未分段句子数,指从当前语音段对应的识别文本的开始位置到上一分段标记之间所有识别文本包含的句子总数;后向未分段句子数,指在当前语音段对应的识别文本之后的所有识别文本包含的句子总数;当前语音段对应的识别文本包含的句子数;当前语音段对应的识别文本与前一语音段对应的识别文本的相似度;当前语音段对应的识别文本与后一语音段对应的识别文本的相似度。优选地,所述从所述识别文本的语义上提取分段特征包括:对所述语音数据对应的识别文本进行修正,所述修正包括:对所述语音数据对应的识别文本添加标点;从修正后的识别文本的语义上提取分段特征。优选地,所述修正还包括以下任意一种或多种:对所述语音数据对应的识别文本进行异常词语过滤;对所述语音数据对应的识别文本进行顺滑处理;对所述语音数据对应的识别文本进行数字规整;对所述语音数据对应的识别文本进行文本替换,所述文本替换包括:将所述语音数据对应的识别文本中的英文小写字母转换为大写字母或反之;和/或将所述语音数据对应的识别文本中的敏感词替换为特殊符号。优选地,所述利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置包括:以语音段为单位,依次将各语音段对应的识别文本的分段特征输入所述分段模型进行分段检测,确定各语音段对应的识别文本的结束位置是否需要分段。优选地,所述方法还包括:向用户展示分段后的识别文本;或者提取分段后各段落识别文本的主题,并将各主题展示给用户;在感知到用户感兴趣的主题时,将对应所述主题的段落的识别文本展示给用户。一种语音识别文本分段装置,包括:端点检测模块,用于对语音数据进行端点检测,得到各语音段及各语音段的开始帧序号和结束帧序号;语音识别模块,用于对各语音段进行语音识别,得到各语音段对应的识别文本;特征提取模块,用于提取各语音段对应的识别文本的分段特征;分段检测模块,用于利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置;分段模块,用于根据分段检测结果对所述语音数据对应的识别文本进行分段。优选地,所述装置还包括,分段模型构建模块,用于构建分段模型;所述分段模型构建模块包括:数据收集单元,用于收集语音数据;端点检测单元,用于对所述数据收集单元收集的语音数据进行端点检测,得到各语音段;语音识别单元,用于对各语音段进行语音识别,得到各语音段对应的识别文本;标注单元,用于标注各语音段对应的识别文本的分段信息,所述分段信息用于表示当前语音段对应的识别文本的结束位置是否需要分段;特征提取单元,用于提取各语音段对应的识别文本的分段特征;训练单元,用于将所述分段特征及所述分段信息作为训练数据,构建分段模型。优选地,所述特征提取模块包括:第一特征提取模块,用于从所述语音数据的声学上提取各语音段的分段特征,并将该分段特征作为所述语音段对应的识别文本的第一分段特征;和/或第二特征提取模块,用于从所述识别文本的语义上提取分段特征,并将该分段特征作为所述识别文本的第二分段特征。优选地,所述第一特征提取模块包括:时长计算单元,用于计算当前语音段的结束帧序号与当前语音段的开始帧序号的差值,并将该差值作为当前语音段的时长;距离计算单元,用于计算当前语音段的开始帧序号与前一语音段的结束帧序号的差值,并将该差值作为当前语音段与前一语音段之间的距离;和/或计算后一语音段的开始帧序号与当前语音段的结束帧序号的差值,并将该差值作为当前语音段与后一语音段之间的距离。优选地,所述第一特征提取模块还包括:说话本文档来自技高网...
语音识别文本分段方法及装置

【技术保护点】
一种语音识别文本分段方法,其特征在于,包括:对语音数据进行端点检测,得到各语音段及各语音段的开始帧序号和结束帧序号;对各语音段进行语音识别,得到各语音段对应的识别文本;提取各语音段对应的识别文本的分段特征;利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置;根据分段检测结果对所述语音数据对应的识别文本进行分段。

【技术特征摘要】
1.一种语音识别文本分段方法,其特征在于,包括:对语音数据进行端点检测,得到各语音段及各语音段的开始帧序号和结束帧序号;对各语音段进行语音识别,得到各语音段对应的识别文本;提取各语音段对应的识别文本的分段特征;利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置;根据分段检测结果对所述语音数据对应的识别文本进行分段。2.根据权利要求1所述的方法,其特征在于,所述方法还包括,按以下方式构建分段模型:收集语音数据;对收集的语音数据进行端点检测,得到各语音段;对各语音段进行语音识别,得到各语音段对应的识别文本;标注各语音段对应的识别文本的分段信息,所述分段信息用于表示当前语音段对应的识别文本的结束位置是否需要分段;提取各语音段对应的识别文本的分段特征;将所述分段特征及所述分段信息作为训练数据,构建分段模型。3.根据权利要求1所述的方法,其特征在于,所述提取各语音段对应的识别文本的分段特征包括:从所述语音数据的声学上提取各语音段的分段特征,并将该分段特征作为所述语音段对应的识别文本的第一分段特征;和/或从所述识别文本的语义上提取分段特征,并将该分段特征作为所述识别文本的第二分段特征。4.根据权利要求3所述的方法,其特征在于,所述第一分段特征包括:当前语音段的时长,还包括:当前语音段与前一语音段之间的距离、和/或当前语音段与后一语音段之间的距离;所述从所述语音数据的声学上提取各语音段的分段特征包括:计算当前语音段的结束帧序号与当前语音段的开始帧序号的差值,并将该差值作为当前语音段的时长;还包括:计算当前语音段的开始帧序号与前一语音段的结束帧序号的差值,并将该差值作为当前语音段与前一语音段之间的距离;和/或计算后一语音段的开始帧序号与当前语音段的结束帧序号的差值,并将该差值作为当前语音段与后一语音段之间的距离。5.根据权利要求4所述的方法,其特征在于,所述第一分段特征还包括:当前语音段的说话人与前一语音段的说话人是否相同、和/或当前语音段的说话人与后一语音段的说话人是否相同;所述从所述语音数据的声学上提取各语音段的分段特征还包括:利用说话人分离技术对所述语音数据进行说话人变化点检测;根据说话人变化点检测结果确定当前语音段的说话人与前一语音段的说话人是否相同、和/或根据说话人变化点检测结果确定当前语音段的说话人与后一语音段的说话人是否相同。6.根据权利要求3所述的方法,其特征在于,所述第二分段特征包括以下任意一种或多种:前向未分段句子数,指从当前语音段对应的识别文本的开始位置到上一分段标记之间所有识别文本包含的句子总数;后向未分段句子数,指在当前语音段对应的识别文本之后的所有识别文本包含的句子总数;当前语音段对应的识别文本包含的句子数;当前语音段对应的识别文本与前一语音段对应的识别文本的相似度;当前语音段对应的识别文本与后一语音段对应的识别文本的相似度。7.根据权利要求3所述的方法,其特征在于,所述从所述识别文本的语义上提取分段特征包括:对所述语音数据对应的识别文本进行修正,所述修正包括:对所述语音数据对应的识别文本添加标点;从修正后的识别文本的语义上提取分段特征。8.根据权利要求7所述的方法,其特征在于,所述修正还包括以下任意一种或多种:对所述语音数据对应的识别文本进行异常词语过滤;对所述语音数据对应的识别文本进行顺滑处理;对所述语音数据对应的识别文本进行数字规整;对所述语音数据对应的识别文本进行文本替换,所述文本替换包括:将所述语音数据对应的识别文本中的英文小写字母转换为大写字母或反之;和/或将所述语音数据对应的识别文本中的敏感词替换为特殊符号。9.根据权利要求1至8任一项所述的方法,其特征在于,所述利用提取的分段特征以及预先构建的分段模型,对所述语音数据对应的识别文本进行分段检测,以确定需要分段的位置包括:以语音段为单位,依次将各语音段对应的识别文本的分段特征输入所述分段模型进行分段检测,确定各语音段对应的识别文本的结束位置是否需要分段。10.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:向用户展示分段后的识别文本;或者提取分段后各段落识别文本的主题,并将各主题展示给用户;在感知到用户感兴趣的主题时,将对应所述主题的段落的识别文本展示给用户。11.一种语音识别文本分段装置,其特征在于,包括:端点检测模块,用于对语音数据进行端点检测,得到各语音段及各语音段...

【专利技术属性】
技术研发人员:胡尹潘清华王金钖胡国平胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1