基于混合模板抽取句子分类特征的方法及装置制造方法及图纸

技术编号:19023489 阅读:18 留言:0更新日期:2018-09-26 19:05
本发明专利技术提供了一种基于混合模板抽取句子分类特征的方法及装置,其中,该方法包括:获取预设文本;对预设文本中的每个预设句子分别进行分析处理,确定预设句子的每个词语的词语参数;根据所有词语的词语参数生成预设句子的候选模板,候选模板包括依次排列的所有词语的一项词语参数;并生成正例模板集和负例模板集;统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板;根据有效模板对待测句子进行分类。该方法生成的有效模板可以是词、词性、命名实体和句法依赖关系的混合表达,可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。

【技术实现步骤摘要】
基于混合模板抽取句子分类特征的方法及装置
本专利技术涉及句子模板挖掘
,特别涉及一种基于混合模板抽取句子分类特征的方法及装置。
技术介绍
句子分类主要是判断一个待测的句子是什么类型,比如判断一个句子是不是疑问句。现在句子分类方法主要是基于词、或词性特征训练一个分类模型,然后对输入的待测句子应用这个分类模型,通过这个分类模型预测这个待测句子的类别。现有方法只是基于词、或词性特征对句子进行分类,该分类方式采用的分类模型表达能力和匹配能力有限,导致分类效果受到限制。
技术实现思路
本专利技术提供一种基于混合模板抽取句子分类特征的方法及装置,用以解决句子分类方法效果不佳的缺陷。本专利技术实施例提供的一种基于混合模板抽取句子分类特征的方法,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;根据所述有效模板对待测句子进行分类。在一种可能的实现方式中,所述根据候选模板的正例次数和负例次数选取有效模板,包括:根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。在一种可能的实现方式中,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。在一种可能的实现方式中,所述根据所有词语的词语参数生成所述预设句子的候选模板,包括:选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。在一种可能的实现方式中,所述预设文本中每个预设句子包含的词语数量相同,且所述正例文本中每个预设句子包含的词语数量与所述负例文本中每个预设句子包含的词语数量相同。在一种可能的实现方式中,在所述根据候选模板的正例次数和负例次数选取有效模板之后,还包括:根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。基于同样的专利技术构思,本专利技术实施例提供一种基于混合模板抽取句子分类特征的装置,包括:获取模块,用于获取预设文本,所述预设文本包括正例文本和负例文本;分词模块,用于对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;生成模块,用于根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;选取模块,用于统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;分类模块,用于根据所述有效模板对待测句子进行分类。在一种可能的实现方式中,所述选取模块包括:确定单元,用于根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;选取单元,用于将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。在一种可能的实现方式中,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。在一种可能的实现方式中,所述生成模块根据所有词语的词语参数生成所述预设句子的候选模板,包括:选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。在一种可能的实现方式中,所述预设文本中每个预设句子包含的词语数量相同,且所述正例文本中每个预设句子包含的词语数量与所述负例文本中每个预设句子包含的词语数量相同。在一种可能的实现方式中,该装置还包括:处理模块;在所述选取模块根据候选模板的正例次数和负例次数选取有效模板之后,所述处理模块用于:根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。本专利技术实施例提供的一种基于混合模板抽取句子分类特征的方法及装置,通过确定预设句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该预设句子的多个候选模板,进而统计每一种候选模板的正例次数和负例次数,并确定可能包含多种词语参数的有效模板,进而通过该有效模板可以更加准确地对待测句子进行分类。同现有技术相比,生成的候选模板或有效模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的有效模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力更强,分类效果更好。通过候选模板的频次和置信度来确定该候选模板是否可以作为有效模板,可以有效选取出最能反映句子语法规律的有效模板,使得后续句子分类时分类结果更加准确。通过生成二级有效模板,可以利用句子的更多属性参数判断句子的类型;同时删除涵盖范围较小的二级有效模板,可以减少所需的二级有效模板的数量,且使得最终生成的二级有效模板能够更加全面、有效地反映句子中存在的语言规律,之后利用二级有效模板挖掘其他待测句子的语言规律时更加准确。本专利技术本文档来自技高网...

【技术保护点】
1.一种基于混合模板抽取句子分类特征的方法,其特征在于,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;根据所述有效模板对待测句子进行分类。

【技术特征摘要】
1.一种基于混合模板抽取句子分类特征的方法,其特征在于,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个预设句子分别进行分析处理,确定所述预设句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述预设句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所述正例文本中所有预设句子的候选模板生成正例模板集,根据所述负例文本中所有预设句子的候选模板生成负例模板集;统计所有候选模板的正例次数和负例次数,并根据候选模板的正例次数和负例次数选取有效模板,所述正例次数为所述候选模板在所述正例模板集中出现的次数,所述负例次数为所述候选模板在所述负例模板集中出现的次数;根据所述有效模板对待测句子进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据候选模板的正例次数和负例次数选取有效模板,包括:根据正例次数和负例次数确定所述候选模板的频次和置信度,所述频次为所述正例次数和所述负例次数之和,所述置信度为所述正例次数与所述负例次数的比值;将所述频次大于预设阈值、且置信度最大的一个或多个候选模板作为选取的有效模板。3.根据权利要求2所述的方法,其特征在于,所述预设阈值为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。4.根据权利要求1所述的方法,其特征在于,所述根据所有词语的词语参数生成所述预设句子的候选模板,包括:选取所有词语的一项词语参数,并添加句子标记,根据所有词语的一项词语参数和所述句子标记生成所述预设句子的候选模板,所述句子标记包括开始标记和/或结束标记。5.根据权利要求1所述的方法,其特征在于,在所述根据候选模板的正例次数和负例次数选取有效模板之后,还包括:根据所有词语的词语参数生成所述预设句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板均为有效模板时,将所述二级候选模板作为二级有效模板;并判断当前二级有效模板所包含的所有子候选模板是否是其他二级有效模板的子候选模板集的子集;若是,则删除当前二级有效模板;将最终保留的二级有效模板作为所述预设句子最终选取的二级有效模板。6.一种基于混合模板抽取句子分类特征的装置,其特征在...

【专利技术属性】
技术研发人员:任禾
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1