【技术实现步骤摘要】
语音识别中噪音的过滤方法、装置、介质及对话机器人
本专利技术涉及语音识别处理
,特别是涉及一种语音识别中噪音的过滤方法、装置、介质及对话机器人。
技术介绍
服务于某一指定场景(如营业厅)的语音交互系统可以与客户进行智能化的人机交互,并有针对性地为用户提供引导,答疑,和推荐等个性化服务,具有低成本、高效率的优势。然而,在实际场景应用中,客观环境多变且有诸多不确定因素。环境噪音、嘈杂的人声、广播、音乐和旁人的聊天,都有可能对语音识别模块(ASR)造成干扰,导致识别出一些无实际意义的、无关用户意图的噪音文本。这些噪音文本继续进入对话系统将对其后续的判断形成干扰,一方面,影响自然语言理解模块(NLU)对用户意图的判断,有几率将噪音文本识别成已存在的用户意图,甚至错误地提取到词槽关键词,让这些干扰信息流入下一个环节;另一方面,错误的意图和词槽会造成对话管理模块(DM)作出错误的动作预测,从而给用户错误的或无效的反馈,影响对话系统的流畅度与可靠程度,降低用户体验。基于上述原因,噪音文本的存在使得对话系统需要对意图识别的可信度更加谨慎,一定程度上限制了NLU的泛化能力,降低其对人类自然语言多变的适应性。若能在前期将大部分噪音文本进行过滤,将很有机会提升对话系统在实际应用中的表现。当前的噪音过滤技术更多依赖硬件,判断声源,设置语音起点(如hisiri),然而如何过滤掉清晰的人声噪音仍是一大难题。
技术实现思路
基于此,有必要针对如何过滤掉清晰的人声噪音的问题,提供一种语音识别中噪音的过滤方法 ...
【技术保护点】
1.一种语音识别中噪音的过滤方法,用于指定场景下的噪音文本的过滤,其特征在于,包括:/n获取语音语料,并将语音语料转化为文本信息,得到输入文本;/n将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;/n根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。/n
【技术特征摘要】
1.一种语音识别中噪音的过滤方法,用于指定场景下的噪音文本的过滤,其特征在于,包括:
获取语音语料,并将语音语料转化为文本信息,得到输入文本;
将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;
根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。
2.根据权利要求1所述的语音识别中噪音的过滤方法,其特征在于,相关性模型基于TF-IDF模型进行构建,相关性模型在判断一条输入文本的相关性时,包括:
利用分词工具对输入文本进行分词;
计算每个分词的tf-idf值,根据所有分词的tf-idf值得到一个相关值;
将相关值与预设阈值进行比对,若高于预设阈值,则认为是相关,否则认为不相关。
3.根据权利要求2所述的语音识别中噪音的过滤方法,其特征在于,计算一个分词的tf-idf值时,包括:
遍历专业语料库,得到分词在专业语料库中出现的次数;
根据分词在专业语料库中出现的次数,计算得到分词在专业语料库的重要程度;
将专业语料库根据对话意图分成多个逆文档,获取分词在逆文档中出现的逆文档数;
根据分词在逆文档中出现的逆文档数计算分词的逆文档频数;
根据分词在专业语料库中的重要程度及分词的逆文档频数计算得到tf-idf值。
4.根据权利要求3所述的语音识别中噪音的过滤方法,其特征在于,计算一个分词的tf-idf值的公式为:
tft,d=log10(count(t,d)+1)
wt,d=tft,d×idft
其中,tft,d表示分词在专业语料库中的重要程度,count(t,d)表示分词在专业语料库中出现的次数,idft表示分词在专业语料库中的逆文档频数,N表示专业语料库中的逆文档总数,dft表示出现分词的逆文档数,wt,d表示分词在专业语料库中的tf-idf值。
5.根据权利要求1所述的语音识别中噪音的过滤方法,其特征在于,得到输入文本之后,还包括步骤:
将输入文本输入到通顺度模型上,进行通顺度判定;其中,通顺度的判定基于公共语料库和专业语料库进行;
所述根据相关度确定输入文本是否为噪音文本的步骤,具体为:
结合相关度和通顺度确定输入文本是否为噪音文本。
6.根据权利要求5所述的语音识别中噪音的过滤方法,其特征在于,通顺度模型对输入文本的通顺度判定,包括:
将一条输入文本逐字分解;
根据每个字前面的N个字,计算每个字在该输入文本中所在位置的条件概率;
根据每个字的条件概率计算得到该输入文本的整句分值;
根据整句分值进行通顺度判定。
7.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率时,依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数计算得到,其中N大于等于1。
8.根据权利要求7所述的语音识别中噪音的过滤方法,其特征在于,N等于2,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
其中C(x)为X在公共语料库及专业语料库中出现的次数。
9.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率时,依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-2个字组成的第三连贯词,结合线性插值计算得到,其中N大于等于2。
10.根据权利要求9所述的语音识别中噪音的过滤方法,其特征在于,N等于2,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
其中,λ1+λ2+λ2=1,P(wn)为字wn在公共语料库及专业语料库中出现的概率,C(X)为X在公共语料库及专业语料库中出现的次数。
11.根据权利要求10所述的语音识别中噪音的过滤方法,其特征在于,λ1、λ2、λ3为随机选取,且λ1≥0.7,λ1>λ2>λ3。
<...
【专利技术属性】
技术研发人员:孙非凡,姚沁玥,孙信中,吴涵渠,
申请(专利权)人:深圳市奥拓电子股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。