一种错误文本拒识方法、装置及存储介质制造方法及图纸

技术编号：21892212 阅读：36 留言：0更新日期：2019-08-17 14:37

本发明专利技术涉及一种错误文本拒识方法、装置及存储介质，本发明专利技术通过对待检文本进行文字长度判决，当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本。相对于现有技术，本发明专利技术提升了人机对话系统的容错性。

An Error Text Rejection Method, Device and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
一种错误文本拒识方法、装置及存储介质
本专利技术涉及信息处理领域，尤其是涉及一种错误文本拒识方法、装置及存储介质。
技术介绍
人机对话系统自问世以来，迅速引起了大众的注意力。当时的人机对话系统大多数采用人工编写特定业务规则的方式进行应答匹配，缺乏容错性以及更高境界的认知智能，所以导致人机对话系统出现答非所问的不良体验。但实际上，从人机对话相关产品的面世引起大众广泛的注意力，可以看出人机对话系统在生活的应用前景是值得探究的。人机对话系统的关键在于计算机能够在设计的系统模型下，根据线下训练的模型，获取对方表达的内容并在一定程度上理解，给出有意义的回复内容。受限于语音识别技术以及自然语言理解等相关领域技术发展的瓶颈，目前人机对话系统还不能够像人类一样智能的处理各种语音对话，尤其是在通用的人机对话系统。在目前的阶段，人机对话系统通常是任务型的对话系统。近些年来，随着语音处理技术及自然语言处理技术的进一步发展，目前的人机对话系统相对于当初具有一定的智慧了，但仍然不具备与人完全自然交流的能力，尤其是因为语音识别预测错误或者超出规则应答范围的时候，会出现答非所问的情况。因此，针...

【技术保护点】
1.一种错误文本拒识方法，其特征在于，包括以下步骤：对待检文本进行文字长度判决；当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N‑gram语言模型提取优化后的2‑gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本；输出待检文本判决结果。

【技术特征摘要】
1.一种错误文本拒识方法，其特征在于，包括以下步骤：对待检文本进行文字长度判决；当待检文本文字长度高于设定阈值时，调用自定义关键词词库和通用命名实体库提取词库命中率及命中词词频两维特征，调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征，将提取的特征送入训练好的SVM模型判决该文本是否属于错误文本；当待检文本文字长度低于设定阈值时，调用自定义关键词词库和通用名实体库对该文本进行规则匹配判决该文本是否属于错误文本；输出待检文本判决结果。2.根据权利要求1所述的错误文本拒识方法，其特征在于：在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤之前，利用jieba分词工具进行文本分类，将待检文本转化为词序列(w1w2..wN)。3.根据权利要求2所述的错误文本拒识方法，其特征在于：在调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中，所述N-gram语言模型通过Kenlm工具自学习迭代训练文本语料得到，该步骤具体包括：以部分未拒识文本语料训练基础N-gram语言模型；依据基础N-gram语言模型，拒识后续文本语料，得到文本语料集；将文本语料集加入基础文本语料集，以更新后的文本语料集训练N-gram语言模型。4.根据权利要求3所述的错误文本拒识方法，其特征在于：所述调用N-gram语言模型提取优化后的2-gram语言困惑度及句子置信度两维特征的步骤中，按照下述方式提取所述优化后的2-gram语言困惑度：其中，S为待检文本，N为待检文本的词序列长度，所述2-gramscore代表一个2-gram组合出现的概率；ωi为依据文本长度以及词频数统计构造的约束项：其中，Ui代表2-gram组合,Len(Ui)代表该2-gram组合的文本长度，β为经验阈值，conf(Ui)代表2-gram组合的句子置信度：其中，N为待检文本的词序列长度，wi表示2-gram组合中某词，Len(wi)表示词长，x表示词频，xmax表示词频上限，如果wi的词频x小于词频上限xmax，则否则conf(wi)＝1；按照下述方式获得文本的句子置信度：其中，S为待检文本，N为待检文本的词序列长度，wi表示词序列(w1w2..wN)的某分词，Len(wi)表示词长，x表示词频...

【专利技术属性】
技术研发人员：张涵，庄豪爽，钟顺明，冯韩德，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人