输出语音转录的方法、语音转录生成系统和计算机程序产品技术方案

技术编号:38463746 阅读:18 留言:0更新日期:2023-08-11 14:40
提供了一种用于输出语音转录的方法。方法包括:从候选音频流中提取候选声纹特征信息;对候选音频流执行语音识别,以生成候选语音转录;将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,存储候选语音转录和目标对象的目标标识符,目标标识符对应于目标对象的目标声纹特征信息。信息。信息。

【技术实现步骤摘要】
【国外来华专利技术】输出语音转录的方法、语音转录生成系统和计算机程序产品


[0001]本专利技术涉及语音识别技术,尤其涉及一种输出语音转录的方法、语音转录生成系统和计算机程序产品。

技术介绍

[0002]组织频繁地举行会议以便于在其成员之间的通信。将在这些会议中进行的演讲,特别是对于主讲人的演讲,记录在文本中是重要的。传统的语音转录方法不能将主讲人的演讲与语音(诸如,背景噪声或由会议出席者发出的声音)区分开。

技术实现思路

[0003]在一个方面,本公开提供了一种用于输出语音转录的方法,包括:从候选音频流中提取候选声纹特征信息;对候选音频流执行语音识别,以生成候选语音转录;将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,存储候选语音转录和目标对象的目标标识符,目标标识符对应于目标对象的目标声纹特征信息。
[0004]可选地,方法还包括:从语音样本中提取目标对象的目标声纹特征信息;以及存储目标对象的目标声纹特征信息、目标对象的目标标识符、以及目标对象的目标声纹特征信息与目标标识符之间的对应关系。
[0005]可选地,方法还包括:针对至少一个附加候选音频流,重复提取、执行语音识别、比较和存储的步骤;以及将与同一目标标识符相关联的多个候选语音转录合并到同一目标对象的会议记录中。
[0006]可选地,方法还包括:针对至少一个附加候选音频流,重复发送、提取、执行语音识别、比较和存储的步骤;以及将与同一目标标识符相关联的多个候选音频流合并成与同一目标标识符相关联的合并音频流。
[0007]可选地,对候选音频流执行语音识别包括对与同一目标标识符相关联的合并音频流执行语音识别,以生成针对同一目标对象的会议记录或会议概要。
[0008]可选地,提取、执行语音识别、比较和存储的步骤由终端装置执行。
[0009]可选地,方法还包括将候选音频流从终端装置发送到服务器;其中,提取和执行语音识别的步骤由服务器执行。
[0010]可选地,由服务器执行将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;目标对象的目标声纹特征信息、目标对象的目标标识符、目标对象的目标声纹特征信息与目标标识符之间的对应关系存储在服务器上;以及候选语音转录存储在服务器上。
[0011]可选地,方法还包括在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,将候选语音转录和目标标识符从服务器发送到终端装置。
[0012]可选地,方法还包括在确定候选声纹特征信息不与任何目标对象的目标声纹特征
信息匹配时,由服务器丢弃候选语音转录。
[0013]可选地,由终端装置执行将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;目标对象的目标声纹特征信息、目标对象的目标标识符、目标对象的目标声纹特征信息与目标标识符之间的对应关系存储在终端装置上;候选语音转录存储在终端装置上;以及方法还包括将候选声纹特征信息和候选语音转录从服务器发送到终端装置。
[0014]可选地,方法还包括在确定候选声纹特征信息不与任何目标对象的目标声纹特征信息匹配时,由终端装置丢弃候选语音转录。
[0015]可选地,目标对象的目标声纹特征信息、目标对象的目标标识符以及目标对象的目标声纹特征信息与目标标识符之间的对应关系存储在终端装置上;由服务器执行提取目标对象的目标声纹特征信息;该方法还包括:将目标对象的语音样本从终端装置发送到服务器;将目标对象的目标标识符从终端装置发送到服务器;以及将目标对象的目标声纹特征信息从服务器发送到终端装置。
[0016]可选地,提取、比较和存储的步骤由终端装置执行;执行语音识别的步骤由服务器执行;该方法还包括:将候选音频流从终端装置发送到服务器;以及将候选语音转录从服务器发送到终端装置。
[0017]可选地,在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,将候选音频流从终端装置发送到服务器;以及服务器将候选语音转录和目标标识符发送到终端装置。
[0018]可选地,方法还包括将候选音频流从终端装置发送到服务器;其中,提取步骤由服务器执行;执行语音识别的步骤和存储的步骤由终端装置执行。
[0019]可选地,由服务器执行将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及目标对象的目标声纹特征信息、目标对象的目标标识符、目标对象的目标声纹特征信息与目标标识符之间的对应关系存储在服务器上。
[0020]可选地,方法还包括将指示候选声纹特征信息与目标对象的目标声纹特征信息匹配的信号从服务器发送到终端装置;以及将目标对象的目标标识符从服务器发送到终端装置,目标标识符对应于目标对象的目标声纹特征信息。
[0021]可选地,由终端装置执行将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;目标对象的目标声纹特征信息、目标对象的目标标识符、目标对象的目标声纹特征信息与目标标识符之间的对应关系存储在终端装置上;以及该方法还包括将候选声纹特征信息从服务器发送至终端装置。
[0022]可选地,从终端装置发送到服务器的候选音频流是原始候选音频流的片段;原始候选音频流包括候选音频流和未发送到服务器的至少一个间隔音频流;以及对候选音频流执行语音识别包括对原始候选音频流执行语音识别。
[0023]在另一方面,本公开提供了一种语音转录生成系统,包括:一个或多个处理器,其被配置为:从候选音频流中提取候选声纹特征信息;对候选音频流执行语音识别,以生成候选语音转录;将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,存储候选语音转录和目标对象的目标标识符,目标标识符对应于目标对象的目标声纹特征信息。
[0024]在另一方面,本公开提供了一种计算机程序产品,包括其上具有计算机可读指令
的非暂时性有形计算机可读介质;其中,计算机可读指令可由一个或多个处理器执行以使一个或多个处理器执行:从候选音频流中提取候选声纹特征信息;对候选音频流执行语音识别,以生成候选语音转录;将候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及在确定候选声纹特征信息与目标对象的目标声纹特征信息匹配时,存储候选语音转录和目标对象的目标标识符,目标标识符对应于目标对象的目标声纹特征信息。
附图说明
[0025]根据各种公开的实施例,以下附图仅是用于说明目的的示例,并且不旨在限制本专利技术的范围。
[0026]图1是示出根据本公开的一些实施例中的语音转录生成系统的示意图。
[0027]图2是示出根据本公开的一些实施例中的用于输出语音转录的方法的流程图。
[0028]图3是示出根据本公开的一些实施例中的建立声纹特征识别模型的方法的流程图。
[0029]图4是示出根据本公开的一些实施例中的语音转录生成系统的实施方式的示意图。
[0030]图5是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于输出语音转录的方法,包括:从候选音频流中提取候选声纹特征信息;对所述候选音频流执行语音识别,以生成候选语音转录;将所述候选声纹特征信息与至少一个目标对象的目标声纹特征信息进行比较;以及在确定所述候选声纹特征信息与目标对象的目标声纹特征信息匹配时,存储所述候选语音转录和所述目标对象的目标标识符,所述目标标识符对应于所述目标对象的所述目标声纹特征信息。2.根据权利要求1所述的方法,还包括:从语音样本中提取所述目标对象的所述目标声纹特征信息;以及存储所述目标对象的所述目标声纹特征信息、所述目标对象的所述目标标识符、以及所述目标对象的所述目标声纹特征信息与所述目标标识符之间的对应关系。3.根据权利要求1所述的方法,还包括:针对至少一个附加候选音频流,重复提取、执行语音识别、比较和存储的步骤;以及将与同一目标标识符相关联的多个候选语音转录合并到同一目标对象的会议记录中。4.根据权利要求1所述的方法,还包括:针对至少一个附加候选音频流,重复发送、提取、执行语音识别、比较和存储的步骤;以及将与同一目标标识符相关联的多个候选音频流合并成与所述同一目标标识符相关联的合并音频流。5.根据权利要求4所述的方法,对所述候选音频流执行语音识别包括对与所述同一目标标识符相关联的所述合并音频流执行语音识别,以生成针对同一目标对象的会议记录或会议概要。6.根据权利要求1至5中任一项所述的方法,其中,提取、执行语音识别、比较和存储的步骤由终端装置执行。7.根据权利要求1至5中任一项所述的方法,还包括将所述候选音频流从终端装置发送到服务器;其中,提取和执行语音识别的步骤由所述服务器执行。8.根据权利要求7所述的方法,其中,由所述服务器执行将所述候选声纹特征信息与至少一个目标对象的所述目标声纹特征信息进行比较;所述目标对象的所述目标声纹特征信息、所述目标对象的所述目标标识符、所述目标对象的所述目标声纹特征信息与所述目标标识符之间的所述对应关系存储在所述服务器上;以及所述候选语音转录存储在所述服务器上。9.根据权利要求8所述的方法,还包括在确定所述候选声纹特征信息与所述目标对象的所述目标声纹特征信息匹配时,将所述候选语音转录和所述目标标识符从所述服务器发送到所述终端装置。10.根据权利要求8所述的方法,还包括在确定所述候选声纹特征信息不与任何目标对象的目标声纹特征信息匹配时,由所述服务器丢弃所述候选语音转录。11.根据权利要求7所述的方法,其中,由所述终端装置执行将所述候选声纹特征信息
与至少一个目标对象的所述目标声纹特征信息进行比较;所述目标对象的所述目标声纹特征信息、所述目标对象的所述目标标识符、所述目标对象的所述目标声纹特征信息与所述目标标识符之间的所述对应关系存储在所述终端装置上;所述候选语音转录存储在所述终端装置上;以及所述方法还包括将所述候选声纹特征信息和所述候选语音转录从所述服务器发送到所述终端装置。12.根据权利要求11所述的方法,还包括在确定所述候选声纹特征信息不与任何目标对象的目标声纹特征信息匹配时,由所述终端装置丢弃所述候选语音转录。13.根据权利要求2所述的方法,其中,所述目标对象的所述目标声纹特征信息、所述目标对象的所述目标标识符以及所述目标对象的所述目标声纹特征信息与所述目标标识符之间的对应关系存储在终端装置上;由服务器执行提取所述目标对象的所述目标声纹特征信息;该方法还包括:将所述目标对象的...

【专利技术属性】
技术研发人员:马会广张阳阳
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1