一种文本对齐语音的方法、装置、设备及介质制造方法及图纸

技术编号:32221276 阅读:14 留言:0更新日期:2022-02-09 17:26
本申请提供了一种文本对齐语音的方法、装置、设备及介质,该方法包括:电子设备对视频的视觉分量进行识别,获得包括视频中文本所在的空间位置、文本出现和消失的时间以及文本的内容的第一识别结果,对视频的语音分量进行识别,获得包括视频中语音对应的至少一个单词以及至少一个单词出现的时间的第二识别结果,根据第一识别结果进行编码获得第一特征,对第二识别结果进行编码获得第二特征,然后根据第一特征和第二特征获得融合特征,通过分类器获得融合特征对应的文本是否对齐语音的属性,以实现文本对齐。如此,能够从语义层面对齐文本与语音,具有较高的准确度。具有较高的准确度。具有较高的准确度。

【技术实现步骤摘要】
一种文本对齐语音的方法、装置、设备及介质


[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种文本对齐语音的方法、装置、设备以及计算机可读存储介质、计算机程序产品。

技术介绍

[0002]电视剧、电影、新闻等视频中包括大量的文本。该文本例如可以是视频中的字幕。为了提高用户的视听体验,通常需要将上述文本与视频中的语音对齐。通过人工方式对齐文本和语音需要耗费大量的时间和人力,成本较高,难以满足业务需求。
[0003]光学字符识别(optical character recognition,OCR)和自动语音识别(automatic speech recognition,ASR)的发展,使得自动对齐文本和语音成为一种可能。OCR是指对文本资料的图像文件进行分析处理,获取其中文字的过程。ASR是将人的语音转换为文本的过程。
[0004]通过直接计算OCR识别的文本和ASR识别出的文本的距离,可以实现基于规则的文本匹配。然而,上述方法并未考虑到识别文字的模糊性,难以在语义层面进行对齐。在真实场景中,视频中的字幕等文本和语音大多意思相近,但内容又不完全一致时,基于规则的匹配方法失效。

技术实现思路

[0005]本公开的目的在于:提供了一种文本对齐语音的方法、装置、设备、计算机可读存储介质以及计算机程序产品,能够从语义层面对文本和语音进行对齐,提高文本和语音对齐的准确度。
[0006]第一方面,本公开提供了文本对齐语音的方法,所述方法包括:
[0007]对视频的视觉分量进行识别,获得第一识别结果,对所述视频的语音分量进行识别,获得第二识别结果,所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容,所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间;
[0008]根据所述第一识别结果进行编码,获得第一特征,根据所述第二识别结果进行编码,获得第二特征,根据所述第一特征和所述第二特征获得融合特征;
[0009]将所述融合特征输入分类器,获得所述文本的属性,所述文本的属性用于描述所述文本是否对齐所述语音。
[0010]第二方面,本公开提供了一种文本对齐语音的装置,所述装置包括:
[0011]识别模块,用于对视频的视觉分量进行识别,获得第一识别结果,对所述视频的语音分量进行识别,获得第二识别结果,所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容,所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间;
[0012]编码模块,用于根据所述第一识别结果进行编码,获得第一特征,根据所述第二识
别结果进行编码,获得第二特征,根据所述第一特征和所述第二特征获得融合特征;
[0013]分类模块,用于将所述融合特征输入分类器,获得所述文本的属性,所述文本的属性用于描述所述文本是否对齐所述语音。
[0014]第三方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
[0015]第四方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
[0016]第五方面,本公开提供了一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行上述第一方面所述方法的步骤。
[0017]从以上技术方案可以看出,本公开至少具有如下优点:
[0018]具体地,视频可以包括视觉分量和语音分量,电子设备通过对视频的视觉分量进行识别,可以获得包括视频中文本所在空间位置、文本出现和消失的时间以及文本的内容在内的第一识别结果,通过对视频的语音分量进行识别,可以获得包括语音对应的至少一个单词以及所述至少一个单词出现的时间在内的第二识别结果。然后,电子设备将第一识别结果编码为第一特征,将第二识别结果编码为第二特征,对第一特征和第二特征进行融合,获得融合特征,该融合特征从更高层次的语义层面对第一识别结果和第二识别结果进行了对齐,将上述融合特征输入分类器进行属性分类,可以输出对齐语音的文本和未对齐语音的文本。
[0019]该方法考虑了识别文字的模糊性,从更高层次的语义层面对文本和语音进行对齐,解决了视频中文本和语音表达意思相近,但文本的内容与语音识别的文本的内容不完全一致,导致基于规则匹配的对齐方法失效的问题,具有较高的准确度。
[0020]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
[0022]图1为本申请实施例提供的一种文本对齐语音的方法的流程图;
[0023]图2为本申请实施例提供的一种视频中某一帧图像的示意图;
[0024]图3为本申请实施例提供的一种第一特征的示意图;
[0025]图4为本申请实施例提供的一种第二特征的示意图;
[0026]图5为本申请实施例提供的一种图像与语音文本相似度的编辑距离的示意图;
[0027]图6为本申请实施例提供的一种图像与语音文本的时间差的示意图;
[0028]图7为本申请实施例提供的一种文本对齐语音的方法示意图;
[0029]图8为本公开实施例提供的一种文本对齐语音装置的结构示意图;
[0030]图9为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0031]本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗
示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
[0032]首先对本申请实施例中所涉及到的一些技术术语进行介绍。
[0033]视频是一种携带丰富信息的媒体资源。视频可以被视频播放器播放,以向用户呈现动态影像。其中,动态影像包括连续的图像和音频。针对电视剧、电影、新闻等视频,视频被播放时所呈现的图像中可以包括文本。该文本例如可以是字幕、赞助商名称、视频制作者名称、背景文字等。上述视频被播放时所呈现的音频中可以包括语音和背景音(如主题曲、插曲等)。
[0034]为了提高用户的视听体验,通常需要将视频中的文本与视频中的语音对齐,例如是将字幕与语音对齐。其中,文本与语音对齐是指语音被播放时,使得与该语音匹配的文本在同一时间段被呈现,避免音画(语音和画面中的文本)不同步的情况发生。
[0035]考虑到人工对齐文本和语音,需要耗费大量的时间成本和人力成本。业界提出了对于文本和语音进行自动对齐的方案。
[0036]具体地,对视频进行解码可以得到连续的图像,获取得到文本,另外可以从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对齐语音的方法,其特征在于,所述方法包括:对视频的视觉分量进行识别,获得第一识别结果,对所述视频的语音分量进行识别,获得第二识别结果,所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容,所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间;根据所述第一识别结果进行编码,获得第一特征,根据所述第二识别结果进行编码,获得第二特征,根据所述第一特征和所述第二特征获得融合特征;将所述融合特征输入分类器,获得所述文本的属性,所述文本的属性用于描述所述文本是否对齐所述语音。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一识别结果进行编码,获得第一特征,包括:采用词嵌入将所述第一识别结果中所述文本的内容表示为第一向量;将所述第一识别结果中所述文本所在的空间位置以及所述文本出现和消失的时间嵌入所述第一向量,获得第一特征。3.根据权利要求1所述的方法,其特征在于,所述根据所述第二识别结果进行编码,获得第二特征,包括:采用词嵌入将所述第二识别结果中所述语音对应的至少一个单词表示为第二向量;将所述第二识别结果中所述至少一个单词出现的时间嵌入所述第二向量;对嵌入后的所述第二向量进行编码,获得第二特征。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述第一特征和所述第二特征获得融合特征,包括:以所述第一特征为查询输入,对所述第二特征进行基于注意力的解码,获得融合特征。5.根据权利要求1至3任一项所述的方法,其特征在于,所述分类器采用多层全连接网络。6.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:确定所述第一识别结果中所述文本的内容与所述第二识别结果中所述至少一个单词的相似度,或者确定所述第一识别结果中所述文本出现的时间与所述第二识别结果中对应单词出现的时间之间的时间差;根据所述相似度或者所述时间差,纠正所述分类器的输出。7.一种文本对齐语音的装置,其特征在于,所述装置包括:识别模块,用于对视频的视觉分量进行识别,获得第一识别结果,对所述视频的语音分量进行识别,获得第二识别结果,所述第一识别结果包括所述视频中...

【专利技术属性】
技术研发人员:邹应王彦杰黄灿王长虎
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1