实时字幕显示方法及系统技术方案

技术编号：14402520 阅读：64 留言：0更新日期：2017-01-11 14:49

本发明专利技术公开了一种实时字幕显示方法及系统，该方法包括：接收说话人语音数据；对当前语音数据进行语音识别，得到待显示的字幕文本；对所述字幕文本添加标点，得到字幕文本分句；确定并标记所述字幕文本分句结束位置是否需要分段；根据说话人韵律特征确定字幕显示基本单元；根据所述字幕显示基本单元对所述字幕文本进行显示。利用本发明专利技术，可以提高说话人信息传递的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域，具体涉及一种实时字幕显示方法及系统。
技术介绍
人工智能的应用中，机器的语音识别准确率在不断上升。其中，语音听写技术主要应用在语音输入、语音搜索、语音助手等产品中，语音转写的典型场景包括，记者采访、电视节目、课堂及交谈式会议等等，甚至包括任何人在日常的工作生活中产生的任何录音文件。在语音转写的应用场景中，通常需要同步将语音转写得到的文本以字幕的形式显示出来。目前，对于音视频字幕的显示，一般是针对预先录制的音视频，人工根据音视频中说话人内容手工添加字幕文本，将字幕文本直接显示在音视频的屏幕上；另外，考虑到音视频字幕的视觉效果，字幕显示时，一屏仅显示一行或两行字幕文本，传递的信息量较少，对于直播或说话人现场用户无法重复观看的情况，如会议场景下，每个参会人在听说话人讲话时，字幕实时显示到屏幕上，如果用户未理解说话人的某句话，并不能现场重新查看字幕文本，显然这种显示方式无法满足应用需求。
技术实现思路
本专利技术实施例提供一种实时字幕显示方法及系统，以提高了说话人信息传递的效果。为此，本专利技术提供如下技术方案：一种实时字幕显示方法，包括：接收说话人语音数据；对当前语音数据进行语音识别，得到待显示的字幕文本；对所述字幕文本添加标点，得到字幕文本分句；确定并标记所述字幕文本分句结束位置是否需要分段；根据说话人韵律特征确定字幕显示基本单元；根据所述字幕显示基本单元对所述字幕文本进行显示。优选地，所述方法还包括：预先训练分段模型；所述确定所述字幕文本分句结束位置是否需要分段包括：提取所述字幕文本分句的分句向量；将所述分句向量输入所述分段模型...
实时字幕显示方法及系统

【技术保护点】
一种实时字幕显示方法，其特征在于，包括：接收说话人语音数据；对当前语音数据进行语音识别，得到待显示的字幕文本；对所述字幕文本添加标点，得到字幕文本分句；确定并标记所述字幕文本分句结束位置是否需要分段；根据说话人韵律特征确定字幕显示基本单元；根据所述字幕显示基本单元对所述字幕文本进行显示。

【技术特征摘要】
1.一种实时字幕显示方法，其特征在于，包括：接收说话人语音数据；对当前语音数据进行语音识别，得到待显示的字幕文本；对所述字幕文本添加标点，得到字幕文本分句；确定并标记所述字幕文本分句结束位置是否需要分段；根据说话人韵律特征确定字幕显示基本单元；根据所述字幕显示基本单元对所述字幕文本进行显示。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：预先训练分段模型；所述确定所述字幕文本分句结束位置是否需要分段包括：提取所述字幕文本分句的分句向量；将所述分句向量输入所述分段模型，得到所述字幕文本分句结束位置的分段标记。3.根据权利要求1所述的方法，其特征在于，所述说话人韵律特征包括：说话人说话时的语速及停顿时长；所述根据说话人韵律特征确定字幕显示基本单元包括：计算说话人当前的说话语速及字幕文本分句之间的停顿时长；判断所述说话语速是否超过设定的语速阈值，或者所述停顿时长是否低于预先设定的停顿时长阈值，如果是，则使用字幕文本分句作为字幕显示基本单元；否则，使用语音识别时有效语音段对应的识别文本作为字幕显示基本单元，每个有效语音段对应识别文本包含一个或多个分句。4.根据权利要求1所述的方法，其特征在于，所述根据所述字幕显示基本单元对所述字幕文本进行显示包括：(1)接收一个字幕显示基本单元的字幕文本，作为当前字幕文本；(2)判断当前字幕文本字数与屏幕上最后一个字幕显示基本单元的字幕文本字数之和是否超过屏幕可以显示的最多字数；如果是，执行步骤(3)；否则，执行步骤(4)；(3)清除屏幕中所有字幕文本，将当前字幕文本显示到屏幕上；(4)判断当前字幕文本字数与屏幕上所有字幕文本字数之和是否超过屏幕可以显示的最多字数；如果是，执行步骤(5)；否则，执行步骤(7)；(5)判断屏幕上最后一个字幕显示基本单元字幕文本是否有分段标记；如果有，执行步骤(3)；否则，执行步骤(6)；(6)清除屏幕最后一个字幕显示单元字幕文本之前的所有文本，然后执行步骤(7)；(7)将当前字幕文本直接显示到最后一个字幕显示单元字幕文本后面。5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：利用预先构建的编解码序列到序列模型对所述字幕文本的命名体和线索词进行识别，得到识别结果；在对所述字幕文本进行显示时，突出显示所述识别结果。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：按以下方式构建所述编解码序列到序列模型：收集大量文本数据；标注所述文本数据中的命名体及线索词，作为标注特征；对所述文本数据进行分词，并提取各词的词向量；利用所述文本数据的词向量及所述标注特征训练编解码序列到序列模型，得到模型参数。7.根据权利要求5所述的方法，其特征在于，所述利用预先构建的编解码序列到序列模型对所述字幕文本的命名体和线索词进行识别，得到识别结果包括：提取所述字幕文本的词向量；将所述词向量输入编解码序列到序列模型，得到编解码序列到序列模型输出的识别结果。8.一种实时字幕显示系统，其特征在于，包括：接收模块，用于接收说话人语音数据；语音识别模块，用于对当前语音数据进行语音识别，得到待显示的字幕文本；标点添加模块，用于对所述字幕文本添加标点，得到字幕文本分句；分段标记模块...

【专利技术属性】
技术研发人员：高建清，王智国，胡国平，胡郁，刘庆峰，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人