一种错误文本拒识方法、装置及存储介质制造方法及图纸

技术编号:21892212 阅读:24 留言:0更新日期:2019-08-17 14:37
本发明专利技术涉及一种错误文本拒识方法、装置及存储介质,本发明专利技术通过对待检文本进行文字长度判决,当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本。相对于现有技术,本发明专利技术提升了人机对话系统的容错性。

An Error Text Rejection Method, Device and Storage Media

【技术实现步骤摘要】
一种错误文本拒识方法、装置及存储介质
本专利技术涉及信息处理领域,尤其是涉及一种错误文本拒识方法、装置及存储介质。
技术介绍
人机对话系统自问世以来,迅速引起了大众的注意力。当时的人机对话系统大多数采用人工编写特定业务规则的方式进行应答匹配,缺乏容错性以及更高境界的认知智能,所以导致人机对话系统出现答非所问的不良体验。但实际上,从人机对话相关产品的面世引起大众广泛的注意力,可以看出人机对话系统在生活的应用前景是值得探究的。人机对话系统的关键在于计算机能够在设计的系统模型下,根据线下训练的模型,获取对方表达的内容并在一定程度上理解,给出有意义的回复内容。受限于语音识别技术以及自然语言理解等相关领域技术发展的瓶颈,目前人机对话系统还不能够像人类一样智能的处理各种语音对话,尤其是在通用的人机对话系统。在目前的阶段,人机对话系统通常是任务型的对话系统。近些年来,随着语音处理技术及自然语言处理技术的进一步发展,目前的人机对话系统相对于当初具有一定的智慧了,但仍然不具备与人完全自然交流的能力,尤其是因为语音识别预测错误或者超出规则应答范围的时候,会出现答非所问的情况。因此,针对语音识别错误的情况,我们设计了一种基于规则与SVM的错误文本拒识方法,避免语音识别错误的文本继续传入后续对话系统的处理过程,在一定程度上减少了出现人机对话系统出现答非所问的现象。同时,对于检测出错误文本的情况,通过语音提醒用户再次重复语音或者接入人工对话系统,从而在保障较好用户体验的情况下实现对话交互,完成会话任务。现有人机对话系统的语音识别问题主要有:1、在环境噪音严重的情况下,噪音对人机对话系统的语音识别影响较大,极大可能造成语音识别预测文本错误,从而导致人机对话系统答非所问。2、人机对话系统的语音识别模块准确率依靠声学模型以及语言模型的学习,任一问题都可能造成语音识别预测文本错误,从而导致人机对话系统答非所问。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种语音识别效果好、准确率高的错误文本拒识方法、装置及存储介质。一种错误文本拒识方法,包括以下步骤:对待检文本进行文字长度判决;当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本;输出待检文本判决结果。相对于现有技术,本专利技术通过对待检文本进行文字长度判决,当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本,提升了人机对话系统的容错性,增加语音识别的准确性。进一步地,在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤之前,利用jieba分词工具进行文本分类,将文本转化为词序列(w1w2..wN);方便后续步骤提取优化后的2-gram语言困惑度及句子置信度。进一步地,在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤中,所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到,该步骤具体包括:以部分未拒识文本语料训练基础N-gram语言模型;依据基础N-gram语言模型,拒识后续文本语料,得到文本语料集;将文本语料集加入基础文本语料集,以更新后的文本语料集训练N-gram语言模型;通过上述步骤,保证了后续步骤中利用N-gram语言模型提取多维特征的准确性。进一步地,所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度的步骤中,所述优化后的2-gram语言困惑度(PPL)公式为:其中,S为待检文本,N为待检文本的词序列长度,所述2-gramscore代表一个2-gram组合出现的概率;ωi为依据文本长度以及词频数统计构造的约束项:其中Ui代表2-gram组合,Len(Ui)代表该2-gram组合的文本长度,β为经验阈值,conf(Ui)代表2-gram组合的句子置信度;其中,N为待检文本的词序列长度,wi表示2-gram组合中某词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1;所述获得句子置信度的公式为:其中,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1;wi表示文本S分词后词序列(w1w2..wN)的某分词;Len(wi)表示词长。通过对每一个2-gramscore增加一个以2-gram组合为单位的约束项ωi,使得常规2-gram组合权重ωi低,异常2-gram组合权重ωi高,增加两者区分度。进一步地,所述调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征步骤中,所述自定义关键词词库的构建步骤包括:对文本语料进行数据清洗,剔除无效文本,滤除无语义信息的语气助词;按字数分别保存单字至三字文本,筛选正确文本直至正确文本占总文本覆盖率达97%,依此分别构建单字至三字关键词词库。通过上述步骤,保障了自定义关键词词库的准确性。进一步地,在将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本的步骤中,所述SVM模型的训练步骤包括:分析待检文本数据并进行特征构建,对获得的特征进行分析并对特征进行组合选择;标记正负样本集合;选择SVM核函数及对SVM模型参数及进行调优,并训练模型;保存SVM模型结果,评估SVM模型并获取最优分类阈值。进一步地,所述分析待检文本数据并进行特征构建,对获得的特征进行分析并选择特征进行组合的步骤中,所述特征构建包括:统计文本的关键词命中率,记为F1;统计命中词的词频总和,记为F2;以2-gram组合求句子语言困惑度(PPL),并进一步优化,记为F3;以3-gram组合求句子语言困惑度(PPL),并进一步优化,记为F4;基于F3和F4,分别进行插值处理,记为F5、F6;基于F3,引入文本长度及词频因素,得到所述文本的句子置信度,记为F7;所述对获得的特征进行分析并选择特征进行组合的步骤中,选择F1、F2、F3、F7进行特征组合。上述特征组合为经过多次分析实验后得出的效果最优方案。进一步地,所述选择SVM核函数及对SVM模型参数进行调优,并训练模型的步骤中,所述SVM核函数为RBF核函数,所述SVM模型参数包括:惩罚系数C、核函数系数gamma、多项式系数degree。通过选用RBF核函数,提高了SVM模型的分类效果。本专利技术还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的错误文本拒识方法的步骤。本专利技术还提供了一种错误文本拒识装置,包括储存器、处理器以及储存在所述储存器中并可被所述本文档来自技高网
...

【技术保护点】
1.一种错误文本拒识方法,其特征在于,包括以下步骤:对待检文本进行文字长度判决;当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本;输出待检文本判决结果。

【技术特征摘要】
1.一种错误文本拒识方法,其特征在于,包括以下步骤:对待检文本进行文字长度判决;当待检文本文字长度高于设定阈值时,调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征,调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征,将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本;当待检文本文字长度低于设定阈值时,调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本;输出待检文本判决结果。2.根据权利要求1所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前,利用jieba分词工具进行文本分类,将待检文本转化为词序列(w1w2..wN)。3.根据权利要求2所述的错误文本拒识方法,其特征在于:在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到,该步骤具体包括:以部分未拒识文本语料训练基础N-gram语言模型;依据基础N-gram语言模型,拒识后续文本语料,得到文本语料集;将文本语料集加入基础文本语料集,以更新后的文本语料集训练N-gram语言模型。4.根据权利要求3所述的错误文本拒识方法,其特征在于:所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中,按照下述方式提取所述优化后的2-gram语言困惑度:其中,S为待检文本,N为待检文本的词序列长度,所述2-gramscore代表一个2-gram组合出现的概率;ωi为依据文本长度以及词频数统计构造的约束项:其中,Ui代表2-gram组合,Len(Ui)代表该2-gram组合的文本长度,β为经验阈值,conf(Ui)代表2-gram组合的句子置信度:其中,N为待检文本的词序列长度,wi表示2-gram组合中某词,Len(wi)表示词长,x表示词频,xmax表示词频上限,如果wi的词频x小于词频上限xmax,则否则conf(wi)=1;按照下述方式获得文本的句子置信度:其中,S为待检文本,N为待检文本的词序列长度,wi表示词序列(w1w2..wN)的某分词,Len(wi)表示词长,x表示词频...

【专利技术属性】
技术研发人员:张涵庄豪爽钟顺明冯韩德
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1