一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32853854 阅读:9 留言:0更新日期:2022-03-30 19:20
本发明专利技术公开了一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质,方法可以分为以下步骤:对用户提供的行业常用语音文本,进行分词预处理;对用户文本的分词结果进行词频分析,获取用户当前文本词频;分析获取在用户当前文本词频中较高而在已有语音转写模型训练语料词频中较低的词,作为用户当前热词集;将用户当前热词集与历史热词库进行递归合并,重新调节热词的权重得到用户当前热词库;基于用户当前热词库,进行语音转文本。可根据用户提供的行业常用语音文本,快速提取热词,极大提高语音转写正确率;由于获取的热词库是包含热词出现概率的信息,可依据所有热词的出现概率自动调节热词权重。所有热词的出现概率自动调节热词权重。所有热词的出现概率自动调节热词权重。

【技术实现步骤摘要】
一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音
,尤其涉及一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质。

技术介绍

[0002]在通用的语音识别技术中,由于行业领域数据较少的问题,在训练声学模型、语言模型时受到训练语料不足的限制,无法涵盖不同用户、不同行业的行业用词,特别是对专有名词、同音字词转写往往很难达到用户的期望结果,通用的语音识别技术只能转写为发音类似且在声学模型、语言模型训练语料中出现频率较高的字词,以至于得到错误的转写结果。
[0003]随着业界语音技术的不断突破以及近年来人们认知水平和需求的提高,大家对语音识别技术提出了越来越多的挑战,例如用户希望在自己行业领域中的语音识别效果也能接近通用语音的识别效果,并且避免进行声学模型、语言模型训练等费时而又繁琐的技术操作。
[0004]针对上述行业领域语音转写错误问题,除了添加大量用户行业领域的语料数据进行声学模型、语言模型训练来提高语音转写引擎的转写正确率,还可以通过设置语音转写热词库的方法,让语音转写引擎更倾向于识别出用户当前热词库中的热词,从而极大地提高一些不常见词或用户行业用词的转写正确率,提高用户满意度。
[0005]传统的设置语音转写热词库的方法,往往只能人工统计整理一个行业领域的热词库,并且该热词库不能区分高频词和低频词,无法区分不同热词的权重,另外由于人工统计整理它有耗时、效率低、热词覆盖面广度无法保证等问题。
[0006]正因如此,目前市面上通过设置热词来提高语音转写正确率的较少,一直受到用户热词提取相关技术问题的困扰。

技术实现思路

[0007]本专利技术的目的是针对现有技术中存在的不足,提供一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质。
[0008]为实现上述目的,在第一方面,本专利技术提供了一种语音转写中结合用户文本的快速热词提取方法,包括以下步骤:
[0009]1)对用户提供的行业语音文本即用户文本,进行分词预处理;
[0010]2)对用户文本的分词预处理结果进行词频分析,获取用户当前文本词频;
[0011]3)分析获取在用户当前文本词频中大于设置的词频阈值n1,而在已有语音转写模型训练语料词频中小于设置的词频阈值n2的词,作为用户当前热词集;
[0012]4)将用户当前热词集与历史热词库进行递归合并,重新调节热词的权重得到用户当前热词库;
[0013]5)基于用户当前热词库,进行语音转文本。
[0014]优选的,所述步骤1)中分词预处理包括以下步骤:
[0015]所述分词预处理操作通过jieba分词工具完成,在分词预处理操作之前根据用户需求添加自定义词典,确保用户文本中的特殊词在分词处理时不被拆分,并根据用户需求设置停用词;
[0016]对用户文本合并汇总后,通过jieba分词工具进行分词处理,生成分词后的用户文本文件。
[0017]优选的,所述步骤2)中获取用户当前文本词频的具体步骤如下:
[0018]将所述分词后的用户文本文件通过语言模型训练工具SRILM生成词频统计文件。
[0019]优选的,所述步骤3)中确定用户当前热词集的具体步骤如下:
[0020]分析筛选出用户当前文本词频统计文件中满足预置条件的词,即在用户当前文本词频中词频高于词频阈值n1而在语音转写模型训练语料词频中词频低于词频阈值n2的词,作为用户当前热词集。
[0021]优选的,所述步骤4)中重新获取用户当前热词库的具体步骤如下:
[0022]在用户当前热词集中去除与历史热词库中重复的热词;
[0023]将用户当前文本词频统计文件与历史文本词频统计文件合并,计算用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率;
[0024]根据用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率,进行递归合并得到该用户当前热词库,如果用户没有历史热词库,则用户当前热词集即为用户当前热词库;
[0025]然后依据用户当前热词库热词的出现概率自动重新调节热词权重,且用户自定义特殊热词的热词权重。
[0026]优选的,所述步骤5)中进行语音转文本的具体步骤如下:
[0027]导入含有用户当前热词库中的热词的语音,语音转写引擎更倾向于识别出用户当前热词库中的热词。
[0028]在第二方面,本专利技术提供了一种语音转写中结合用户文本的快速热词提取装置,包括:
[0029]用户文本预处理模块,用于对用户提供的行业语音文本即用户文本,进行分词预处理;
[0030]用户当前文本词频获取模块,用于对用户文本的分词预处理结果进行词频分析,获取用户当前文本词频;
[0031]用户当前热词集获取模块,用于分析获取在用户当前文本词频中大于设置的词频阈值n1,而在已有语音转写模型训练语料词频中小于设置的词频阈值n2的词,作为用户当前热词集;
[0032]用户当前热词库获取模块,用于将用户当前热词集与历史热词库进行递归合并,重新调节热词的权重得到用户当前热词库;
[0033]语音转写模块,用于基于用户当前热词库,进行语音转文本。
[0034]优选的,所述用户当前热词库获取模块用于在用户当前热词集中去除与历史热词库中重复的热词;
[0035]将用户当前文本词频统计文件与历史文本词频统计文件合并,计算用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率;
[0036]根据用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率,进行递归合并得到该用户当前热词库,如果用户没有历史热词库,则用户当前热词集即为用户当前热词库;
[0037]然后依据用户当前热词库热词的出现概率自动重新调节热词权重,且用户自定义特殊热词的热词权重;
[0038]并通过语音转写模块导入含有用户当前热词库中的热词的语音,语音转写引擎更倾向于识别出用户当前热词库中的热词。
[0039]在第三方面,本专利技术提供了一种电子设备,所述电子设备包括:
[0040]存储器,用于存储指令;
[0041]处理器,用于调用所述存储器存储的指令执行权利要求1

6中任一项所述的一种语音转写中结合用户文本的快速热词提取方法。
[0042]在第四方面,本专利技术提供了一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令执行权利要求1

6中任一项所述的一种语音转写中结合用户文本的快速热词提取方法。
[0043]有益效果:本专利技术可根据用户提供的行业常用语音文本,快速提取热词,极大提高语音转写正确率;由于本专利技术获取的热词库是包含热词出现概率的信息,可依据所有热词的出现概率自动调节热词权重;由于本专利技术支持用户的当前热词集与历史热词库进行递归合并,用户可在使用过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转写中结合用户文本的快速热词提取方法,其特征在于,包括以下步骤:1)对用户提供的行业语音文本即用户文本,进行分词预处理;2)对用户文本的分词预处理结果进行词频分析,获取用户当前文本词频;3)分析获取在用户当前文本词频中大于设置的词频阈值n1,而在已有语音转写模型训练语料词频中小于设置的词频阈值n2的词,作为用户当前热词集;4)将用户当前热词集与历史热词库进行递归合并,重新调节热词的权重得到用户当前热词库;5)基于用户当前热词库,进行语音转文本。2.根据权利要求1所述的一种语音转写中结合用户文本的快速热词提取方法,其特征在于,所述步骤1)中分词预处理包括以下步骤:所述分词预处理操作通过jieba分词工具完成,在分词预处理操作之前根据用户需求添加自定义词典,确保用户文本中的特殊词在分词处理时不被拆分,并根据用户需求设置停用词;对用户文本合并汇总后,通过jieba分词工具进行分词处理,生成分词后的用户文本文件。3.根据权利要求1所述的一种语音转写中结合用户文本的快速热词提取方法,其特征在于,所述步骤2)中获取用户当前文本词频的具体步骤如下:将所述分词后的用户文本文件通过语言模型训练工具SRILM生成词频统计文件。4.根据权利要求3所述的一种语音转写中结合用户文本的快速热词提取方法,其特征在于,所述步骤3)中确定用户当前热词集的具体步骤如下:分析筛选出用户当前文本词频统计文件中满足预置条件的词,即在用户当前文本词频中词频高于词频阈值n1而在语音转写模型训练语料词频中词频低于词频阈值n2的词,作为用户当前热词集。5.根据权利要求3所述的一种语音转写中结合用户文本的快速热词提取方法,其特征在于,所述步骤4)中重新获取用户当前热词库的具体步骤如下:在用户当前热词集中去除与历史热词库中重复的热词;将用户当前文本词频统计文件与历史文本词频统计文件合并,计算用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率;根据用户当前热词集与历史热词库所有热词在合并的文本词频统计文件中的出现概率,进行递归合并得到该用户当前热词库,如果用户没有历史热词库,则用户当前热词集即为用户当前热词库;然后依据用户当前热词库热词的出现概率自动重新调节热词权重,且用户自...

【专利技术属性】
技术研发人员:胡俊鑫梁钦段轶包静亮刘均伟
申请(专利权)人:江苏金陵科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1