语音数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39300206 阅读:8 留言:0更新日期:2023-11-12 15:51
本申请公开了一种语音数据处理方法、装置、电子设备及存储介质。其中,方法包括:获取待识别的语音数据;基于自动语音识别(ASR)技术,将所述语音数据转换成文本数据;利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。确定所述语音数据的关键词。确定所述语音数据的关键词。

【技术实现步骤摘要】
语音数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及语音识别领域,尤其涉及一种语音数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的广泛应用,自动语音识别(ASR,Automatic Speech Recognition)技术作为一种便捷的人机交互技术,能够实现从语音数据到文本数据的转化。比如,在商业应用中,商家采用ASR技术将电话沟通的内容进行自动转化,使得客户的语音能够以文本的形式被记录下来,以便于对客户需求的归类以及投诉内容的查询。再比如,在医院场景下,除了门诊中医护人员的问诊信息,还存在超声检查、胃肠镜检查等诊察场景;其中,在上述诊察场景下,医护人员通常需要手持医疗设备对病人进行检查,不便于同时手动记录检查中发现的问题,此时,采用ASR技术能够将医护人员的检查结果实时转化为文本并输出。
[0003]然而,相关技术中,对语音数据进行识别时,存在对专业词汇等关键词的识别准确率低的问题。

技术实现思路

[0004]为解决相关技术问题,本申请实施例提供一种语音数据处理方法、装置、电子设备及存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种语音数据处理方法,包括:
[0007]获取待识别的语音数据;
[0008]基于ASR技术,将所述语音数据转换成文本数据;
[0009]利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;
[0010]利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。
[0011]上述方案中,所述利用所述文本数据,确定所述语音数据对应的第一信息,包括:
[0012]将所述文本数据输入至第一模型,得到所述语音数据对应的场景信息,所述第一模型用于确定输入的文本数据的场景信息。
[0013]上述方案中,所述第一模型包含采用多任务学习方式训练得到的模型。
[0014]上述方案中,所述利用所述文本数据,确定所述语音数据对应的第二信息,包括:
[0015]将所述文本数据输入至第二模型,得到与所述语音数据中词的语境关联的关联信息和前缀语信息,所述第二模型用于确定与输入的文本数据中词的语境关联的关联信息和前缀语信息。
[0016]上述方案中,所述第二模型包含基于基于转换器(Transformer)的双向编码器表
示(BERT,Bidirectional Encoder Representations from Transformer)训练得到的模型。
[0017]上述方案中,所述基于ASR技术,将所述语音数据转换成文本数据,包括:
[0018]对所述语音数据进行预处理;
[0019]基于ASR技术,将预处理后的所述语音数据转换成所述文本数据。
[0020]上述方案中,利用所述文本数据、所述第一信息和所述第二信息,基于集束搜索算法,确定所述语音数据的关键词。
[0021]本申请实施例还提供一种语音数据处理方法,包括:
[0022]获取单元,用于获取待识别的语音数据;
[0023]转换单元,用于基于ASR技术,将所述语音数据转换成文本数据;
[0024]第一处理单元,用于利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;
[0025]第二处理单元,用于利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。
[0026]本申请实施例还提供一种电子设备,包括:处理器及通信接口;其中,
[0027]所述处理器,用于获取待识别的语音数据;基于ASR技术,将所述语音数据转换成文本数据;利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;以及利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。
[0028]本申请实施例还提供一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
[0029]其中,所述处理器用于运行所述计算机程序时,执行任一所述语音数据处理方法的步骤。
[0030]本申请实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一所述语音数据处理方法的步骤。
[0031]本申请实施例提供的语音数据处理方法、装置、电子设备及存储介质,获取待识别的语音数据;基于ASR技术,将所述语音数据转换成文本数据;利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。本申请实施例提供的方案,在相关技术中的通用识别方法的基础上,通过语音数据的场景信息,能够确定当前语音数据的应用场景为领域场景(比如医学领域)或为非领域场景;进一步结合语音数据中热词(即关键词)的前缀语,能够实现对领域场景下的热词和非领域场景下通用词汇的区分,从而提高了对热词的识别准确率。
附图说明
[0032]图1为本申请实施例语音数据处理的方法流程示意图;
[0033]图2为本申请应用示例识别系统的结构示意图;
[0034]图3为本申请实施例语音数据处理装置结构示意图;
[0035]图4为本申请实施例电子设备结构示意图。
具体实施方式
[0036]下面结合附图及实施例对本申请再作进一步详细的描述。
[0037]相关技术中,语音数据可以对应不同的场景(比如教师讲课、医生诊疗、商业会议等场景),不同场景下的新名词、新术语或者客户要求识别的关键词汇(比如领域场景下的专业术语)会不同,使得语音识别技术难以对不同场景下的关键词汇进行准确识别,即存在识别准确率低的问题。
[0038]基于此,在本申请的各种实施例中,在相关语音识别技术的基础上,通过场景信息,能够确定语音输入数据的场景为领域场景或为非领域场景;进一步结合语音数据中热词的前缀语,以实现对不同场景下语音输入数据的热词的精准识别。
[0039]本申请实施例提供一种语音数据处理方法,如图1所示,应用于电子设备,该方法包括:
[0040]步骤101:获取待识别的语音数据;
[0041]步骤102:基于ASR技术,将所述语音数据转换成文本数据;
[0042]步骤103:利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,包括:获取待识别的语音数据;基于自动语音识别ASR技术,将所述语音数据转换成文本数据;利用所述文本数据,确定所述语音数据对应的第一信息和第二信息,所述第一信息包含所述语音数据对应的场景信息,所述第二信息包含与所述语音数据中词的语境关联的关联信息和前缀语信息;利用所述文本数据、所述第一信息和所述第二信息,确定所述语音数据的关键词。2.根据权利要求1所述的方法,其特征在于,所述利用所述文本数据,确定所述语音数据对应的第一信息,包括:将所述文本数据输入至第一模型,得到所述语音数据对应的场景信息,所述第一模型用于确定输入的文本数据的场景信息。3.根据权利要求2所述的方法,其特征在于,所述第一模型包含采用多任务学习方式训练得到的模型。4.根据权利要求1所述的方法,其特征在于,所述利用所述文本数据,确定所述语音数据对应的第二信息,包括:将所述文本数据输入至第二模型,得到与所述语音数据中词的语境关联的关联信息和前缀语信息,所述第二模型用于确定与输入的文本数据中词的语境关联的关联信息和前缀语信息。5.根据权利要求4所述的方法,其特征在于,所述第二模型包含基于BERT训练得到的模型。6.根据权利要求1所述的方法,其特征在于,所述基于ASR技术,将所述语音数据转换成文本数据,包括:对所述语音数据进行预处理;基于ASR技术,将预处理后的所述语音数据转换成所述文本数据。7.根据权利要求1至6任一项所述的方法...

【专利技术属性】
技术研发人员:侯雷静张世磊高莹莹徐衍翰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1