一种基于热词的会议语音识别方法技术

技术编号:32513219 阅读:19 留言:0更新日期:2022-03-02 11:02
本申请公开了一种基于热词的会议语音识别方法。本方法包括:获取第一音频的第一识别结果,第一识别结果是对第一音频进行音频识别得到的,第一识别结果包括表征第一音频的内容的词汇;获取对第一识别结果进行修正而得到的第一修正结果;将包含于第一修正结果并且不包含于第一识别结果的词汇确定为至少一个热词;基于至少一个热词,获取第二音频的第二识别结果。在本方法中,在对第一识别结果进行修正后,电子设备将第一修正结果中包含但第一识别结果中不包含的词汇确定为热词。因此在后续的音频识别中,即使电子设备不能准确识别某些技术名词,也能基于热词提高对上述未识别到的技术名词的识别概率,增加音频识别的准确性。增加音频识别的准确性。增加音频识别的准确性。

【技术实现步骤摘要】
一种基于热词的会议语音识别方法


[0001]本申请涉及音频识别
,更具体地,涉及一种基于热词的会议语音识别方法。

技术介绍

[0002]实时会议音频识别技术,是一种通过语音识别模型将会议音频信息实时转换成文字信息的技术。在实时会议音频的识别过程中,语音识别模型会因为对热词(比如
的专有名词)缺少对应的模型训练,导致无法对热词进行识别,从而导致在学术会议或者专业性较强的会议中,实时会议音频识别的效果较差。
[0003]针对上述问题,目前的解决方法为在会议之前,通过人工去配置需要识别的热词,工作人员需要针对不同领域的技术会议配置不同
的热词,这就导致了需要花费较大的人工成本和时间成本。

技术实现思路

[0004]本申请一些实施例提供一种基于热词的会议语音识别方法,该方法包括:获取第一音频的第一识别结果,第一识别结果是对第一音频进行音频识别得到的,第一识别结果包括表征第一音频的内容的词汇;获取对第一识别结果进行修正而得到的第一修正结果;将包含于第一修正结果并且不包含于第一识别结果的词汇确定为至少一个热词;基于至少一个热词,获取第二音频的第二识别结果。
[0005]本申请实施例提供的一种基于热词的会议语音识别方法,通过获取第一音频的第一识别结果,第一识别结果是对第一音频进行音频识别得到的,第一识别结果包括表征第一音频的内容的词汇;获取对第一识别结果进行修正而得到的第一修正结果;将包含于第一修正结果并且不包含于第一识别结果的词汇确定为至少一个热词;基于至少一个热词,获取第二音频的第二识别结果。在本方法中,在对第一识别结果进行修正得到第一修正结果时,电子设备将错误识别的词汇(也即第一修正结果中包含但第一识别结果中不包含的词汇),确定为热词。因此在后续的音频识别中,即使电子设备不能准确识别某些技术名词,也能基于修正结果提高对上述未识别到的技术名词的识别概率,增加后续音频识别的准确性。此外,该方法不需要工作人员事先对热词进行配置,降低了人工成本。
附图说明
[0006]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0007]图1示出了本申请实施例提供的基于热词的会议语音识别方法的一种应用环境的示意图。
Model,HMM)、基于人工神经网络的模型等等。人工神经网络包括反向传播(Back

Propagation,BP)神经网络、模糊聚类神经网络、卷积神经网络、循环神经网络等一种或多种网络的组合。上述音频识别模型可以是在控制台110处训练得到的,也可以是在服务器120处训练得到的。可选地,控制台110包括指定应用程序,上述指定应用程序通过音频识别模型来实现上述音频识别功能。上述指定应用程序可以是会议类应用程序、社交类应用程序等等。
[0022]在一些实施例中,控制台110还包括显示器,显示器用于显示上述音频信号转换后的文字信息,显示器可以是LED显示屏、液晶(Liquid Crystal Display,LCD)显示屏、阴极射线管(Cathode Ray Tube,CRT)显示器等等。
[0023]在一些实施例中,控制台110还包括麦克风。麦克风是一种拾取声音的传感器,主要用来收集音频信号,并将其转化为电信号传输至处理器进行处理。麦克风可以是和控制台110建立有线/无线连接的话筒,和控制台110建立有线/无线连接的耳机上的麦克风组件等等,也可以是设置于控制台110内部的麦克风组件,本申请实施例对麦克风的具体类型不作限定。
[0024]在本申请实施例中,控制台110在完成语音识别后,显示识别结果,并在用户对识别结果进行修正后,及时根据修正结果更新语音识别所需的热词,以提升后续语音识别的准确度。
[0025]在一些实施例中,控制台110还可以基于语音识别结果以及用户修正的结果形成语音识别模型的训练数据,以便于对语音识别模型进行迭代训练,提升语音识别模型的精度。
[0026]服务器120可以是一台服务器,也可以是多台服务器组成的服务器集群,还可以是一个云计算服务中心。可选地,服务器120是具有音频识别功能的指定应用程序对应的后台服务器。在本申请实施例中,服务器120可用于存储训练数据,以及基于训练数据对语音识别模型进行迭代训练,并向控制台110提供完成训练的语音识别模型。控制台110与服务器120之间通过有线方式或者无线方式建立通信连接。
[0027]如图2所示,图2示意性地示出本申请第一实施例提供的一种基于热词的会议语音识别方法,该方法可以包括以下步骤S210至步骤S240。
[0028]步骤S210:获取第一音频的第一识别结果。
[0029]第一音频(Audio Signals)指的是带有语音、音乐或音效的有规律的声波的频率、幅度变化信息载体。第一音频可以来自于会议场景中的报告音频、电话场景中的通话音频以及日常沟通场景中的说话音频等等,在本实施例中对第一音频的获取场景不做具体限定。控制台110通过麦克风采集第一音频。具体地,当麦克风进入录音状态(例如,麦克风处于打开状态即表示处于录音状态)后,对外部的第一音频进行拾音,以实现对第一音频的采集。
[0030]第一识别结果是对第一音频进行语音识别得到的,第一识别结果包括表征第一音频的内容的词汇。作为一种实施方式,控制台通过音频识别模型以及预设词表对第一音频进行音频识别,基于音频识别模型的处理结果,在预设词表中将具有一定识别概率的词汇确定为至少一个候选识别结果,并在至少一个候选识别结果中,将识别概率最高的词汇确定为第一识别结果,并通过显示器显示该第一识别结果。其中,预设词表可以是对音频识别
模型进行训练的词汇的集合。作为另一种实施方式,可以通过带有转换文字功能的声音获取设备获取第一音频对应的第一识别结果。在该声音获取设备中设置有音频识别模型,可以将拾取到的第一音频转换成第一识别结果,并通过有线/无线传输的方式将该第一识别结果发送至控制台。
[0031]步骤S220:获取对第一识别结果进行修正而得到的第一修正结果。
[0032]工作人员在发现第一识别结果中出现识别错误的情况下,会主动对第一识别结果中的识别错误进行修正,得到第一修正结果。作为一种实施方式,控制台通过预设的接口获取工作人员输入的第一修正结果,例如,预设接口可以为显示屏对应的显示界面中的指定修改窗口,工作人员在发现第一识别结果中出现识别错误的情况下,通过文字修改装置,例如鼠标、带有触摸功能的显示屏等等,对指定修改窗口中第一识别结果中识别错误的文字进行选中并删除,并通过文字输入装置,例如键盘、系统中的虚拟键盘等等,在指定修改窗口中输入正确结果,控制台即可通过上述指定修改接口获得第一修正结果。
[0033]示例性地,以对“马尔可夫模型技术的成熟和不断完善使得该技术成为语音识别的主流方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于热词的会议语音识别方法,其特征在于,所述方法包括:获取第一音频的第一识别结果,所述第一识别结果是对所述第一音频进行音频识别得到的,所述第一识别结果包括表征所述第一音频的内容的词汇;获取对所述第一识别结果进行修正而得到的第一修正结果;将包含于所述第一修正结果并且不包含于所述第一识别结果的词汇确定为至少一个热词;基于至少一个所述热词,获取第二音频的第二识别结果。2.根据权利要求1所述的方法,其特征在于,所述将包含于所述第一修正结果并且不包含于所述第一识别结果的词汇确定为至少一个热词,包括:对所述第一识别结果进行第一分词操作,获取第一分词结果;对所述第一修正结果进行第二分词操作,获取第二分词结果;将包含于所述第二分词结果并且不包含于所述第一分词结果的词汇确定为至少一个所述热词。3.根据权利要求2所述的方法,其特征在于,所述将包含于所述第二分词结果并且不包含于所述第一分词结果的词汇确定为至少一个所述热词之前,还包括:获取所述第一识别结果对应的第一文本向量和所述第一修正结果对应的第二文本向量;若所述第一文本向量和所述第二文本向量之间的相似度大于或等于预设相似度,则执行所述将包含于所述第二分词结果并且不包含于所述第一分词结果的词汇确定为至少一个所述热词的步骤。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一识别结果对应的第一文本向量和所述第一修正结果对应的第二文本向量,包括:计算所述第一识别结果对应的第一分词结果和所述第一修正结果对应的第二分词结果的并集;统计所述第一分词结果中的每个词汇在所述并集中出现的次数,得到所述第一文本向量;统计所述第二分词结果中的每个词汇在所述并集中出现的次数,得到所述第二文本向量。5.根据权利要求1所述的方法,其特征在于,所述基于至少一个所述热词,获取第二音频的第二识别结果,包括:基于预设词表对所述第二音频进行音频识别,得到所述第二音频的至少一个候选识别结果;基于至少一个所述热词,在至少一个所述候选识别结果中确定所述第二音频的第二识别结果。6.根据权利要求5所述的方法,其特征在于,所述基于至少一个所述热词,在至少一个所述候选识别结果中确定所述第二音频的第二识别结果,包括:基于至少一个所述...

【专利技术属性】
技术研发人员:郑颖龙吴广财赖蔚蔚周昉昉陈颖璇林嘉鑫叶杭郑杰生李凯曾朝霖许鑫禹
申请(专利权)人:广东电力信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1