本发明专利技术提供一种会议语音识别方法及系统、存储介质及终端,包括以下步骤:提取会议参与人的声纹特征,构建会议参与人的声纹特征库;获取会议语音数据,当会议语音数据包含至少两个会议发言人的语音数据时,将会议语音数据分离为与至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取发言人语音数据的声纹特征,查找匹配的声纹特征并判定匹配的声纹特征对应的会议参与人为发言人语音数据对应的会议发言人;对于每个发言人语音数据,文本输出文本数据、会议发言人和发言时间信息。本发明专利技术的会议语音识别方法及系统、存储介质及终端。本发明专利技术的会议语音识别方法及系统、存储介质及终端提升了多人会议语音识别的实用性。
A Conference Speech Recognition Method and System, Storage Media and Terminal
【技术实现步骤摘要】
一种会议语音识别方法及系统、存储介质及终端
本专利技术涉及语音识别的
,特别是涉及一种会议语音识别方法及系统、存储介质及终端。
技术介绍
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。现有技术中,语音识别的应用场景越来越多,常见的应用系统有:(1)语音输入系统相对于键盘输入方法,语音输入更符合人的日常习惯,也更自然、更高效。(2)语音控制系统用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域。(3)智能对话查询系统根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。(4)会议记录在目前智能会议的时代,对于会议中报告及记录的方式,早已摆脱了早期传统的利用专人将会议过程记录于纸张中的人工操作及人工记录时代,而是迈入了利用将会议成员的电脑与投影机连接以播放PPT报告资料,及利用摄影机、麦克风等影音采集设备来直接拍摄、收集会议过程的电子资料的会议时代。然而,现有技术中的智能会议的方式虽可改善早期浪费人力的缺点,但是对于会议开始后的会议记录的整理及备份,说话人的标识、分段、会议纪要的提取等仍需浪费大量人力资源及时间成本。另一方面,保存摄影机及麦克风所采集的资料需要很多电子存储设备进行储存,不便于日后查找、检索与回顾。随着语音识别技术的飞速发展,语音识别率有很大的提高,并且能够识别的语音内容,经过持续的训练和语料库的不断沉淀也极大的丰富了语音识别的应用场景。智慧会议时代,将会议语音信息转化为文字资料的趋势逐渐成型,一部分公司如讯飞、BAT等已在通用语音识别转换领域有了非常广泛的应用。然而,通过一个通用的语音识别平台,通过在单人发言时将语音转化为文本来记录会议过程的原始信息已经不是智慧会议的核心任务和功能。智能会议的核心任务和功能是在复杂场景下,当多个人同时参与讨论发言时进行语音识别。然而,多个人同时参与的会议的语音识别存在语音的多模场景,导致多种声纹模型重叠,故存在以下缺陷:(1)指代词不明确,不知道发言人身份,导致会议记录混乱;(2)无法还原会议时的场景,会议记录仍然需要大量人力对会议记录进行整理分段。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种会议语音识别方法及系统、存储介质及终端,能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景。为实现上述目的及其他相关目的,本专利技术提供一种会议语音识别方法,包括以下步骤:提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。于本专利技术一实施例中,每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。于本专利技术一实施例中,在所述声纹特征库中查找匹配的声纹特征时,若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值,则判定二者匹配;若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时,选取匹配度最高的声纹特征作为匹配声纹特征,并在输出的会议发言人上设置提醒信息。于本专利技术一实施例中,在所述声纹特征库中查找匹配的声纹特征时,若没有匹配的声纹特征,则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。于本专利技术一实施例中,还包括对于下一会议语音数据,判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同,若是,则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合并输出;若否,单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。于本专利技术一实施例中,按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息;当同一时间有多个会议发言人时,所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出。对应地,本专利技术提供一种会议语音识别系统,包括构建模块、分离模块、匹配模块和识别模块;所述构建模块用于提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;所述分离模块用于获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;所述匹配模块用于对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;所述识别模块用于对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。本专利技术提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的会议语音识别方法。本专利技术提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的会议语音识别方法。最后,本专利技术提供一种会议语音识别系统,包括上述的终端和语音采集模块;所述语音采集模块用于采集会议语音数据并发送至所述终端。如上所述,本专利技术的会议语音识别方法及系统、存储介质及终端,具有以下有益效果:(1)能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景;(2)标识分段功能使会议记录更加清晰,发言人身份和发言时间的记录功能省去了因会议记录混乱而需要人工整理的时间;(3)文档化的会议记录便于储存查阅。附图说明图1显示为本专利技术的会议语音识别方法于一实施例中的流程图;图2显示为本专利技术的会议语音识别方法于一实施例中的框架图;图3显示为本专利技术的会议语音识别系统于一实施例中的结构示意图;图4显示为本专利技术的终端于一实施例中的结构示意图;图5显示为本专利技术的会议语音识别系统于另一实施例中的结构示意图。元件标号说明31构建模块32分离模块33匹配模块34识别模块41处理器42存储器51终端52语音采集模块具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背本文档来自技高网...
【技术保护点】
1.一种会议语音识别方法,其特征在于:包括以下步骤:提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
【技术特征摘要】
1.一种会议语音识别方法,其特征在于:包括以下步骤:提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。2.根据权利要求1所述的会议语音识别方法,其特征在于:每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。3.根据权利要求1所述的会议语音识别方法,其特征在于:在所述声纹特征库中查找匹配的声纹特征时,若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值,则判定二者匹配;若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时,选取匹配度最高的声纹特征作为匹配声纹特征,并在输出的会议发言人上设置提醒信息。4.根据权利要求1所述的会议语音识别方法,其特征在于:在所述声纹特征库中查找匹配的声纹特征时,若没有匹配的声纹特征,则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。5.根据权利要求1所述的会议语音识别方法,其特征在于:还包括对于下一会议语音数据,判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同,若是,则将下一会议语音数据的文本数据与所述在...
【专利技术属性】
技术研发人员:杨进玉,许佑骏,刘旭峰,
申请(专利权)人:上海思创华信信息技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。