基于语音识别的文本处理方法、装置、电子设备及介质制造方法及图纸

技术编号:29087360 阅读:14 留言:0更新日期:2021-06-30 09:52
本发明专利技术实施例公开了一种基于语音识别的文本处理方法、装置、电子设备及存储介质。所述方法包括:将语音识别获取的初始文本序列切分为至少两个切分对象,并确定至少两个切分对象中相邻两个切分对象之间的静音时长,进而依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,得到带标点符号的目标文本序列。采用本申请技术方案,在对语音进行识别后可利用识别的文本中相邻单词或单字之间的静音时长,通过进行静音长度动态跟踪在各个单词或单字之间添加合适的标点符合,简单地使用语音识别器的静音信息就能实现快速标点符号断句的效果,增加文本识别结果的可读性,解决相关语音识别技术中无法自动添加标点符号,从而降低用户文本可读性的问题。题。题。

【技术实现步骤摘要】
基于语音识别的文本处理方法、装置、电子设备及介质


[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种基于语音识别的文本处理方法、装置、电子设备及介质。

技术介绍

[0002]语音识别技术已经能够很好地进行字识别,但是语音识别结果并不直接包含标点符号信息,比如长句子和小段落识别的语音识别结果都是没有任何标点符号断句的文本结果。
[0003]标点符号后处理技术使用了语言相关的标点符号添加模型,通过对大量带标点符号的文本进行标点符号上下文信息建模,从而在识别结果出来后进行标点符号添加。但是,需要引入语言相关模块和大量训练语料以及相关建模专业知识,对于标点符号的精度和种类要求并不高的应用而言开发和维护成本较高。

技术实现思路

[0004]本专利技术实施例中提供了一种基于语音识别的文本处理方法、装置、电子设备及存储介质,以实现简单迅速地解决标点符号的断句问题。
[0005]第一方面,本专利技术实施例中提供了一种基于语音识别的文本处理方法,所述方法包括:
[0006]将语音识别获取的初始文本序列切分为至少两个切分对象;其中所述切分对象包括单词或单字;
[0007]确定所述至少两个切分对象中相邻两个切分对象之间的静音时长;
[0008]依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,得到带标点符号的目标文本序列。
[0009]第二方面,本专利技术实施例中还提供了一种基于语音识别的文本处理装置,所述装置包括:
[0010]文本切分模块,用于将语音识别获取的初始文本序列切分为至少两个切分对象;其中所述切分对象包括单词或单字;
[0011]静音识别模块,用于确定所述至少两个切分对象中相邻两个切分对象之间的静音时长;
[0012]标点添加模块,用于依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,得到带标点符号的目标文本序列。
[0013]第三方面,本专利技术实施例中还提供了一种电子设备,包括:
[0014]一个或多个处理器;
[0015]存储装置,用于存储一个或多个程序;
[0016]所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例中提供的基于语音识别的文本处理方法。
[0017]第四方面,本专利技术实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例中提供的基于语音识别的文本处理方法。
[0018]本专利技术实施例中提供了一种基于语音识别的文本处理方法,在进行语音识别是,会将语音识别获取的初始文本序列切分为至少两个切分对象,并确定至少两个切分对象中相邻两个切分对象之间的静音时长,进而依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,得到带标点符号的目标文本序列。采用本申请技术方案,在对语音进行识别后可利用识别的文本中相邻单词或单字之间的静音时长,通过进行静音长度动态跟踪在各个单词或单字之间添加合适的标点符合,简单地使用语音识别器的静音信息就能实现快速标点符号断句的效果,增加文本识别结果的可读性,解决相关语音识别技术中无法自动添加标点符号,从而降低用户文本可读性的问题。
[0019]上述
技术实现思路
仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1是本专利技术实施例中提供的一种基于语音识别的文本处理方法的流程图;
[0022]图2是本专利技术实施例中提供的一种基于语音识别的文本处理装置的结构图;
[0023]图3是本专利技术实施例中提供的一种电子设备的结构示意图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0025]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0026]图1是本专利技术实施例中提供的一种基于语音识别的文本处理方法的流程图,本实施例的技术方案可适用于在语音识别时自动添加标点符号的情况,该方法可由基于语音识别的文本处理装置来执行,该装置可由软件和/或硬件实现,并可集成于具有网络通信功能的电子设备中。如图1所示,本专利技术实施例中的基于语音识别的文本处理方法,可包括以下步骤:
[0027]S110、将语音识别获取的初始文本序列切分为至少两个切分对象;其中切分对象包括单词或单字。
[0028]采用语音采集器(比如麦克风等)采集需要进行识别的语音,并通过基于词语言模型的解码网络对获取的语音进行文本识别得到初始文本序列。例如说话人对语音识别系统说:“我的宠物生病了,明天我要带他去医院看病,上午请个假”,语音识别系统的输出的文本序列是:“我的宠物生病了明天我要带他去医院看病上午请个假”,不难看出识别的文本结果中没有任何标点符号断句。
[0029]对语音识别获取的初始文本序列进行切词,将整个语音识别获取的初始文本序列切分成多个单词和/或单字;比如,语音识别获取的初始文本序列为:“我的宠物生病了明天我要带他去医院看病上午请个假”,将上述语音识别获取的初始文本序列切分成如下:“我”、“的”、“宠”、“物”、“生”、“病”、“了”、“明”、“天”、“我”、“要”、“带”、“他”、“去”、“医”、“院”、“看”、“病”、“上”、“午”、“请”、“个”以及“假”多个单字。
[0030]S120、确定至少两个切分对象中相邻两个切分对象之间的静音时长。
[0031]在本实施例的一种可选方案中,确定至少两个切分对象中相邻两个切分对象之间的静音时长,可包括以下步骤A1

A2:
[0032]步骤A1、将至少两个切分对象中各个切分对象,顺序重组为相邻两个切分对象间存在候选静音片段识别的目标文本对齐语法;目标文本对齐语法指示的切分对象中头部切分对象前面与尾部切分对象后面分别添加必选静音片段识别。
[0033]在对获得语音识别结果的初始文本序列进行切分后,可将切本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的文本处理方法,其特征在于,所述方法包括:将语音识别获取的初始文本序列切分为至少两个切分对象;其中所述切分对象包括单词或单字;确定所述至少两个切分对象中相邻两个切分对象之间的静音时长;依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,得到带标点符号的目标文本序列。2.根据权利要求1所述的方法,其特征在于,确定所述至少两个切分对象中相邻两个切分对象之间的静音时长,包括:将所述至少两个切分对象中各个切分对象,顺序重组为相邻两个切分对象间存在候选静音片段识别的目标文本对齐语法;所述目标文本对齐语法指示的切分对象中头部切分对象前面与尾部切分对象后面分别添加必选静音片段识别;通过对目标文本对齐语法进行语法强制对齐,得到相邻两个切分对象之间的静音时长。3.根据权利要求2所述的方法,其特征在于,通过对目标文本对齐语法进行语法强制对齐,得到相邻两个切分对象之间的静音时长,包括:将所述目标文本对齐语法编译为基于语法的语法识别网络;解码器利用初始文本序列的原始语音,对基于语法的语法识别网络进行语法强制对齐解码得到所有候选静音片段的时间信息,并作为相邻两个切分对象之间的静音时长。4.根据权利要求1所述的方法,其特征在于,依据各个相邻两个切分对象之间的静音时长,在至少两个切分对象中添加匹配的标点符号,包括:依据各个相邻两个切分对象之间的静音时长,确定一当前静音时长平均值;依据相邻两个切分对象之间的静音时长和当前的静音时长阈值取值范围,确定在相邻两个切分对象之间添加匹配的标点符号;其中所述当前的静音时长阈值取值范围基于当前静音时长平均值与标点符号关联的放大系数确定。5.一种基于语音识别的文本处理装置,其特征在于,所述装置包括:文本切分模块,用于将语音识别获取的初始文本序列切分为至少两个切分对象;其中所述切分对象包括单词或单字;静音识别模块,用于确定所述...

【专利技术属性】
技术研发人员:王天哲
申请(专利权)人:北京儒博科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1