一种文本对齐语音的方法、装置、设备及介质制造方法及图纸

技术编号：32221276 阅读：14 留言：0更新日期：2022-02-09 17:26

本申请提供了一种文本对齐语音的方法、装置、设备及介质，该方法包括：电子设备对视频的视觉分量进行识别，获得包括视频中文本所在的空间位置、文本出现和消失的时间以及文本的内容的第一识别结果，对视频的语音分量进行识别，获得包括视频中语音对应的至少一个单词以及至少一个单词出现的时间的第二识别结果，根据第一识别结果进行编码获得第一特征，对第二识别结果进行编码获得第二特征，然后根据第一特征和第二特征获得融合特征，通过分类器获得融合特征对应的文本是否对齐语音的属性，以实现文本对齐。如此，能够从语义层面对齐文本与语音，具有较高的准确度。具有较高的准确度。具有较高的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本对齐语音的方法、装置、设备及介质

[0001]本申请涉及人工智能(artificial intelligence，AI)
，尤其涉及一种文本对齐语音的方法、装置、设备以及计算机可读存储介质、计算机程序产品。

技术介绍

[0002]电视剧、电影、新闻等视频中包括大量的文本。该文本例如可以是视频中的字幕。为了提高用户的视听体验，通常需要将上述文本与视频中的语音对齐。通过人工方式对齐文本和语音需要耗费大量的时间和人力，成本较高，难以满足业务需求。
[0003]光学字符识别(optical character recognition，OCR)和自动语音识别(automatic speech recognition，ASR)的发展，使得自动对齐文本和语音成为一种可能。OCR是指对文本资料的图像文件进行分析处理，获取其中文字的过程。ASR是将人的语音转换为文本的过程。
[0004]通过直接计算OCR识别的文本和ASR识别出的文本的距离，可以实现基于规则的文本匹配。然而，上述方法并未考虑到识别文字的模糊性，难以在语义层面进行对齐。在真实场景中，视频中的字幕等文本和语音大多意思相近，但内容又不完全一致时，基于规则的匹配方法失效。

技术实现思路

[0005]本公开的目的在于：提供了一种文本对齐语音的方法、装置、设备、计算机可读存储介质以及计算机程序产品，能够从语义层面对文本和语音进行对齐，提高文本和语音对齐的准确度。
[0006]第一方面，本公开提供了文本对齐语音的方法，所述方法包...

【技术保护点】

【技术特征摘要】
1.一种文本对齐语音的方法，其特征在于，所述方法包括：对视频的视觉分量进行识别，获得第一识别结果，对所述视频的语音分量进行识别，获得第二识别结果，所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容，所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间；根据所述第一识别结果进行编码，获得第一特征，根据所述第二识别结果进行编码，获得第二特征，根据所述第一特征和所述第二特征获得融合特征；将所述融合特征输入分类器，获得所述文本的属性，所述文本的属性用于描述所述文本是否对齐所述语音。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一识别结果进行编码，获得第一特征，包括：采用词嵌入将所述第一识别结果中所述文本的内容表示为第一向量；将所述第一识别结果中所述文本所在的空间位置以及所述文本出现和消失的时间嵌入所述第一向量，获得第一特征。3.根据权利要求1所述的方法，其特征在于，所述根据所述第二识别结果进行编码，获得第二特征，包括：采用词嵌入将所述第二识别结果中所述语音对应的至少一个单词表示为第二向量；将所述第二识别结果中所述至少一个单词出现的时间嵌入所述第二向量；对嵌入后的所述第二向量进行编码，获得第二特征。4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述第一特征和所述第二特征获得融合特征，包括：以所述第一特征为查询输入，对所述第二特征进行基于注意力的解码，获得融合特征。5.根据权利要求1至3任一项所述的方法，其特征在于，所述分类器采用多层全连接网络。6.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：确定所述第一识别结果中所述文本的内容与所述第二识别结果中所述至少一个单词的相似度，或者确定所述第一识别结果中所述文本出现的时间与所述第二识别结果中对应单词出现的时间之间的时间差；根据所述相似度或者所述时间差，纠正所述分类器的输出。7.一种文本对齐语音的装置，其特征在于，所述装置包括：识别模块，用于对视频的视觉分量进行识别，获得第一识别结果，对所述视频的语音分量进行识别，获得第二识别结果，所述第一识别结果包括所述视频中...

【专利技术属性】
技术研发人员：邹应，王彦杰，黄灿，王长虎，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人