汉语句子混合模板的挖掘方法及装置制造方法及图纸

技术编号:19009107 阅读:36 留言:0更新日期:2018-09-22 08:59
本发明专利技术提供了一种汉语句子混合模板的挖掘方法及装置,其中,该方法包括:获取预设文本,所述预设文本包括正例文本和负例文本;对预设文本中的每个句子分别进行分析处理,确定句子的每个词语的词语参数;根据所有词语的词语参数生成句子的候选模板;根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表,并生成正例模板集和负例模板集;从模板列表中选取目标候选模板,根据目标候选模板的正例次数和负例次数确定目标候选模板的模板类型。该方法生成的句子模板是词、词性、命名实体和句法依赖关系的混合表达,可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力强。

Chinese sentence mixed template mining method and device

The invention provides a method and a device for mining a Chinese sentence mixing template, wherein the method includes: acquiring a preset text, the preset text includes a positive text and a negative text; analyzing and processing each sentence in the preset text separately to determine the word parameters of each word in the sentence; and according to all words. Word parameters of a language generate candidate templates of a sentence; combine all candidate templates of all sentences to generate a list of templates that do not contain repetitive candidate templates, and generate a set of positive and negative template templates; select target candidate templates from the list of templates, and determine the number of positive and negative examples of target candidate templates. The template type of the candidate candidate template. The template generated by this method is a hybrid expression of word, part of speech, named entity and syntactic dependency. It can more fully describe the linguistic rules existing in a sentence and has strong template matching ability.

【技术实现步骤摘要】
汉语句子混合模板的挖掘方法及装置
本专利技术涉及句子模板挖掘
,特别涉及一种汉语句子混合模板的挖掘方法及装置。
技术介绍
构建的汉语句子模板可以用来进行句子匹配、分类、信息抽取等任务。目前模板挖掘方法是靠人编辑或机器自动统计,挖掘出类似正则表达式、或者挖掘出单纯的词性序列形式的模板。现有句子模板挖掘方法所挖掘出的模板表达能力有限,句子模板要么单纯用字符串模板,要么单纯用词性模板,这些句子模板的匹配能力比较有限。
技术实现思路
本专利技术提供一种汉语句子混合模板的挖掘方法及装置,用以解决现有句子模板匹配能力较差的缺陷。本专利技术实施例提供的一种汉语句子混合模板的挖掘方法,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个句子分别进行分析处理,确定所述句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表,并根据所述正例文本所有句子的候选模板生成正例模板集,根据所述负例文本所有句子的候选模板生成负例模板集;从所述模板列表中选取目标候选模板,根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型,所述正例次数为所述目标候选模板在所述正例模板集中出现的次数,所述负例次数为所述目标候选模板在所述负例模板集中出现的次数,所述模板类型包括正例模板和负例模板。在一种可能的实现方式中,所述根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型包括:确定所述目标候选模板在所述正例模板集中出现的正例次数N1和所述目标候选模板在所述负例模板集中出现的负例次数N2;当N1/(N1+N2+1)>a时,所述目标候选模板为正例模板;当N2/(N1+N2+1)>b时,所述目标候选模板为负例模板;其中,a和b为预设系数,且a+b≥1。在一种可能的实现方式中,所述预设系数为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。在一种可能的实现方式中,所述预设文本中每个句子包含的词语数量相同,且所述正例文本中每个句子包含的词语数量与所述负例文本中每个句子包含的词语数量相同。在一种可能的实现方式中,在所述确定所述目标候选模板的模板类型之后,该方法还包括:根据所有词语的词语参数生成所述句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板的模板类型相同时,将子候选模板的模板类型作为所述二级候选模板的模板类型;并判断当前二级候选模板所包含的所有子候选模板是否是其他具有相同模板类型的二级候选模板的子候选模板集的子集;若是,则删除当前二级候选模板;将最终保留的二级候选模板作为所述句子最终选取的二级候选模板。基于同样的专利技术构思,本专利技术实施例提供一种汉语句子混合模板的挖掘装置,包括:获取模块,用于获取预设文本,所述预设文本包括正例文本和负例文本;分析处理模块,用于对所述预设文本中的每个句子分别进行分析处理,确定所述句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;第一生成模块,用于根据所有词语的词语参数生成所述句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;第二生成模块,用于根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表,并根据所述正例文本所有句子的候选模板生成正例模板集,根据所述负例文本所有句子的候选模板生成负例模板集;处理模块,用于从所述模板列表中选取目标候选模板,根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型,所述正例次数为所述目标候选模板在所述正例模板集中出现的次数,所述负例次数为所述目标候选模板在所述负例模板集中出现的次数,所述模板类型包括正例模板和负例模板。在一种可能的实现方式中,所述处理模块根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型,包括:确定所述目标候选模板在所述正例模板集中出现的正例次数N1和所述目标候选模板在所述负例模板集中出现的负例次数N2;当N1/(N1+N2+1)>a时,所述目标候选模板为正例模板;当N2/(N1+N2+1)>b时,所述目标候选模板为负例模板;其中,a和b为预设系数,且a+b≥1。在一种可能的实现方式中,所述预设系数为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。在一种可能的实现方式中,所述预设文本中每个句子包含的词语数量相同,且所述正例文本中每个句子包含的词语数量与所述负例文本中每个句子包含的词语数量相同。在一种可能的实现方式中,该装置还包括选取模块;在所述处理模块确定所述目标候选模板的模板类型之后,所述选取模块用于:根据所有词语的词语参数生成所述句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板的模板类型相同时,将子候选模板的模板类型作为所述二级候选模板的模板类型;并判断当前二级候选模板所包含的所有子候选模板是否是其他具有相同模板类型的二级候选模板的子候选模板集的子集;若是,则删除当前二级候选模板;将最终保留的二级候选模板作为所述句子最终选取的二级候选模板。本专利技术实施例提供的一种汉语句子混合模板的挖掘方法及装置,通过确定句子每个词语的多项词语参数,并根据所有词语的词语参数可以生成该句子的多个候选模板,进而生成正例模板和负例模板。同现有技术相比,生成的句子模板表达能力大大增强,不仅仅兼容现有的纯字符串或者是纯词性序列的模板表达,而且还可以是词、词性、命名实体和句法依赖关系的混合表达;利用生成的句子模板可以更加充分地刻画一个句子中存在的语言规律,模板匹配能力强。根据正例次数和负例次数之间的大小关系可以快速确定目标候选模板的模板类型,进而生成正例模板和负例模板,方便后续根据该正例模板和负例模板全面、准确地挖掘句子中存在的语言规律。通过生成二级候选模板,可以利用句子的更多属性参数判断句子的类型;同时删除涵盖范围较小的二级候选模板,可以减少所需的二级候选模板的数量,且使得最终生成的二级候选模板能够更加全面、有效地反映句子中存在的语言规律,之后利用二级候选模板挖掘其他待测句子的语言规律时更加准确。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来本文档来自技高网...
汉语句子混合模板的挖掘方法及装置

【技术保护点】
1.一种汉语句子混合模板的挖掘方法,其特征在于,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个句子分别进行分析处理,确定所述句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表,并根据所述正例文本所有句子的候选模板生成正例模板集,根据所述负例文本所有句子的候选模板生成负例模板集;从所述模板列表中选取目标候选模板,根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型,所述正例次数为所述目标候选模板在所述正例模板集中出现的次数,所述负例次数为所述目标候选模板在所述负例模板集中出现的次数,所述模板类型包括正例模板和负例模板。

【技术特征摘要】
1.一种汉语句子混合模板的挖掘方法,其特征在于,包括:获取预设文本,所述预设文本包括正例文本和负例文本;对所述预设文本中的每个句子分别进行分析处理,确定所述句子的每个词语的词语参数,所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项;根据所有词语的词语参数生成所述句子的候选模板,所述候选模板包括依次排列的所有词语的一项词语参数;根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表,并根据所述正例文本所有句子的候选模板生成正例模板集,根据所述负例文本所有句子的候选模板生成负例模板集;从所述模板列表中选取目标候选模板,根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型,所述正例次数为所述目标候选模板在所述正例模板集中出现的次数,所述负例次数为所述目标候选模板在所述负例模板集中出现的次数,所述模板类型包括正例模板和负例模板。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型包括:确定所述目标候选模板在所述正例模板集中出现的正例次数N1和所述目标候选模板在所述负例模板集中出现的负例次数N2;当N1/(N1+N2+1)>a时,所述目标候选模板为正例模板;当N2/(N1+N2+1)>b时,所述目标候选模板为负例模板;其中,a和b为预设系数,且a+b≥1。3.根据权利要求2所述的方法,其特征在于,所述预设系数为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。4.根据权利要求1所述的方法,其特征在于,所述预设文本中每个句子包含的词语数量相同,且所述正例文本中每个句子包含的词语数量与所述负例文本中每个句子包含的词语数量相同。5.根据权利要求1所述的方法,其特征在于,在所述确定所述目标候选模板的模板类型之后,还包括:根据所有词语的词语参数生成所述句子的二级候选模板,所述二级候选模板包括依次排列的所有词语的一项或多项词语参数,且所述二级候选模板中至少包括一个词语的多项词语参数;确定所述二级候选模板所包含的子候选模板,所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板;当所述二级候选模板中所有的子候选模板的模板类型相同时,将子候选模板的模板类型作为所述二级候选模板的模板类型;并判断当前二级候选模板所包含的所有子候选模板是否是其他具有相同模板类型的二级候选模板的子候选模板集的子集;若是,则删除当前二级候选模板;将最终保留的二级候选模板作为所述句子最终选取的二级候选模板。6.一种汉语句子混合模板的挖掘装置,其特征在于,包括:获取模块,...

【专利技术属性】
技术研发人员:任禾
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1