一种无意义句子识别的方法和设备技术

技术编号:16038113 阅读:76 留言:0更新日期:2017-08-19 19:56
本发明专利技术提出了一种无意义句子识别的方法和设备,其中该方法包括:获取数量超过指定数量的预先确定了有无意义的标本句子;通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例;将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练,得到无意义句子识别模型;当接收到待判断的新句子时,对所述新句子进行特征抽取,并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。以此实现了对无意义句子的识别,且还通过标点的字数及字词比例来进行训练,实现了不同场景下对无意义句子的不同标准的识别。

【技术实现步骤摘要】
一种无意义句子识别的方法和设备
本专利技术涉及语言识别领域,特别涉及一种无意义句子识别的方法和设备。
技术介绍
在现有的语音交互中,在麦克风收集用户语音的过程中,由于用户所处的环境、噪声、多人沟通等等的问题,经常会导致麦克风收录了无意义的片段语音信息,并且将片段的语音信息进行语音识别,而得到了一些无意义的文字片段。但是在交互系统中,在得到了一些无意义的文字片段后,往往难以做相关的有效处理。如果仅仅进入闲聊模式,则会引发用户反感,因为这本身不是用户希望交互系统能够获取到的信息。而如果是进入相关的有效服务中,则更加离谱,用户更加难以接受。因此目前拯待一种需要能对无意义句子进行识别的方法。
技术实现思路
针对现有技术中的缺陷,本专利技术提出了一种无意义句子识别的方法和设备。具体的,本专利技术提出了以下具体的实施例:本专利技术实施例提出了一种无意义句子识别的方法,包括:获取数量超过指定数量的预先确定了有无意义的标本句子;通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例;将所述概率特征值、所述字数以及所述字词比例在逻辑斯特本文档来自技高网...
一种无意义句子识别的方法和设备

【技术保护点】
一种无意义句子识别的方法,其特征在于,包括:获取数量超过指定数量的预先确定了有无意义的标本句子;通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例;将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练,得到无意义句子识别模型;当接收到待判断的新句子时,对所述新句子进行特征抽取,并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。

【技术特征摘要】
1.一种无意义句子识别的方法,其特征在于,包括:获取数量超过指定数量的预先确定了有无意义的标本句子;通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值、以及获取到各类型字词以及标点的字数及字词比例;将所述概率特征值、所述字数以及所述字词比例在逻辑斯特回归模型中训练,得到无意义句子识别模型;当接收到待判断的新句子时,对所述新句子进行特征抽取,并基于所获取到的特征和所述无意义句子识别模型确定所述新句子是否为无意义句子。2.如权利要求1所述的方法,其特征在于,所述“通过对所述标本句子进行特征抽取,获取到基于分词和词性处理得到的特征的概率特征值”包括:对各所述标本句子进行分词以及词性标注,以确定各所述标本句子所包括的多个部分;针对各个部分,结合所述部分相邻的一个或多个部分为一个特征组;将各所述标本句子划分为多个特征组;基于多源语言模型的词和/或词性查询各特征组的概率值;确定查询到的各概率值确定概率特征值;其中,所述概率特征值中包括各概率值所处于的数值范围信息,各概率值的排序信息、以及概率值的中位数和平均值。3.如权利要求2所述的方法,其特征在于,所述“结合所述部分相邻的一个或多个部分为一个特征组;将各所述标本句子划分为多个特征组”结合相邻的两个部分为一特征组,以将各所述标本句子划分为多个特征组;和结合相邻的三个部分为一特征组,以将各所述标本句子划分为多个特征组;和结合相邻的四个部分为一特征组,以将各所述标本句子划分为多个特征组。4.如权利要求2所述的方法,其特征在于,所述概率值具体为log概率值;当各特征组包括相邻的两个部分时,基于所述多源语言模型的词确定各特征组的概率值;当各特征组包括相邻的三个部分时,基于所述多源语言模型的词和词性确定各特征组的概率值;当各特征组包括相邻的四个部分时,基于所述多源语言模型的词性确定各特征组的概率值。5.如权利要求1所述的方法,其特征在于,所述“对所述标本句子进行特征抽取,以获取各类型字词以及标点的字数及字词比例”包括:对各所述标本句子进行分词处理,以获取到各所述标本句子中词字比例、词数、人名字数比例、标点字数比例、数词字数比例、量词字数比例、英文字数比例。6.一种无意义句子识别的设备,其特征在于,包括:获取模块,用于获取数量超过指定...

【专利技术属性】
技术研发人员:姚佳
申请(专利权)人:深圳市空谷幽兰人工智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1