进行语句识别的方法及装置制造方法及图纸

技术编号:11898255 阅读:39 留言:0更新日期:2015-08-19 09:38
本发明专利技术公开了进行语句识别的方法及装置,其中,该方法包括:定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;根据错误率设置相应弱分类器的权重;将待分类语句输入各弱分器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。本发明专利技术方案能够提高对语句识别的准确率。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及进行语句识别的方法及装置
技术介绍
目前的信息处理应用中,常涉及对语句进行识别以确定其分类结果的场景。例如,在网络问答系统中,用户输入自然语言文本语句,网络侧对其进行识别,得到分类结果,根据分类结果提取出对应的应答数据,反馈给用户。该实例通过对用户输入的语句进行处理分析,最终执行用户请求,返回用户所需的信息。问答系统中,回答的准确性是比较重要的核定指标。要想回答精准,须尽可能精准的识别出语句的分类结果。现有进行语句识别的方案一般基于普通分类模型(如支持向量机,随机森林、贝叶斯、Adaboost等)实现,具体包括:采用实例语料对普通分类器进行训练,得到训练后的分类模型。后续在需要时,向训练后的分类模型输入语句,将返回一个分类结果。有了分类结果后,就可以调用相应的任务处理逻辑组装回答用户的问题了。现有通过普通分类器进行语句识别的方案存在以下缺陷:由于普通分类模型基于对实例语料进行统计的方式训练得到,它识别的正确率到了一定程度后就不容易提升,并且对于一些相差非常小的语句很难识别准确。综上,现有进行语句识别的方案具有局限性,且识别准确率低。
技术实现思路
本专利技术提供了一种进行语句识别的方法,该方法能够提高对语句识别的准确率。本专利技术提供了一种进行语句识别的装置,该装置能够提高对语句识别的准确率。 一种进行语句识别的方法,该方法包括:对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;该方法还包括:将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。一种进行语句识别的装置,该装置包括语料标注单元、语料训练单元和识别单元;所述语料标注单元,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;所述语料训练单元,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量,当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;所述识别单元,将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。从上述方案可以看出,本专利技术中,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系,将普通分类器和映射分类器组合成弱分类器;然后采用语料样本对组合成的弱分类器进行训练,得到各弱分类器的权重。而后,基于带权重的弱分类器对待分类语句进行识别,对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。本专利技术采用普通分类器和映射分类器结合对待分类语句进行识别,且映射分类器中的映射关系可自行设置,这样,相比于仅采用普通分类器进行数据识别的方式,提高了识别的准确性。【附图说明】图1为本专利技术进行语句识别的方法示意性流程图;图2为本专利技术进行语料训练的方法流程图实例;图3为本专利技术基于带权重的弱分类器进行语句识别的方法流程图实例;图4为本专利技术进行语句识别的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术进一步详细说明。本专利技术中,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;采用普通分类器和映射分类器结合对待分类语句进行识别,且映射分类器中的映射关系可自行设置,这样,相比于仅采用普通分类器进行数据识别的方式,提高了识别的准确性。参见图1,为本专利技术进行语句识别的方法示意性流程图,其包括以下步骤:步骤101,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取。实例语料用于训练分类器。对实例语料进行分类标注,给予准确的分类结果,即标准分类结果。例如,实例语料为“这个手机有什么配件”,其标准分类结果为“配件查询”。对实例语料进行特征向量提取为已有技术,同样以前述的实例语料进行说明,其特征向量包括“手机、有、什么、配件”。步骤102,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器。具体实现时,针对实例语料,本步骤设置出特征向量与分类结果之间的映射关系,定制出映射分类器。映射关系尤其可针对相差非常小的语句,以及一些需要特别进行分类结果设置的语句;当然,映射关系也可针对一般语句进行分类结果的映射。映射关系可根据需要自行设置。步骤103,将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别。弱分类器包含映射分类器和普通分类器,当为映射分类器时,输入语料样本,便可根据特征向量在映射关系中查找出相应的分类结果,作为输出。若为弱分类器,则需要对普通分类器进行训练,采用实例语料训练普通分类器为已有技术,这里不多赘述;训练得到的分类模型可对语料样本进行分类识别,输出分类结果。步骤104,将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重。为了进一步提高分类准确性,还可为语料样本设置权重,并对权重进行调整;具体地,所有语料样本的初始权重可设置为相同数值,在对语料样本进行分类识别后,再进行权重调整,具体地:[0042当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种进行语句识别的方法,其特征在于,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;该方法还包括:将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗欢李杰汤鹏飞王智
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1