汉语句子混合模板的挖掘方法及装置制造方法及图纸

技术编号：19009107 阅读：36 留言：0更新日期：2018-09-22 08:59

本发明专利技术提供了一种汉语句子混合模板的挖掘方法及装置，其中，该方法包括：获取预设文本，所述预设文本包括正例文本和负例文本；对预设文本中的每个句子分别进行分析处理，确定句子的每个词语的词语参数；根据所有词语的词语参数生成句子的候选模板；根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表，并生成正例模板集和负例模板集；从模板列表中选取目标候选模板，根据目标候选模板的正例次数和负例次数确定目标候选模板的模板类型。该方法生成的句子模板是词、词性、命名实体和句法依赖关系的混合表达，可以更加充分地刻画一个句子中存在的语言规律，模板匹配能力强。

Chinese sentence mixed template mining method and device

The invention provides a method and a device for mining a Chinese sentence mixing template, wherein the method includes: acquiring a preset text, the preset text includes a positive text and a negative text; analyzing and processing each sentence in the preset text separately to determine the word parameters of each word in the sentence; and according to all words. Word parameters of a language generate candidate templates of a sentence; combine all candidate templates of all sentences to generate a list of templates that do not contain repetitive candidate templates, and generate a set of positive and negative template templates; select target candidate templates from the list of templates, and determine the number of positive and negative examples of target candidate templates. The template type of the candidate candidate template. The template generated by this method is a hybrid expression of word, part of speech, named entity and syntactic dependency. It can more fully describe the linguistic rules existing in a sentence and has strong template matching ability.

全部详细技术资料下载

【技术实现步骤摘要】
汉语句子混合模板的挖掘方法及装置
本专利技术涉及句子模板挖掘
，特别涉及一种汉语句子混合模板的挖掘方法及装置。
技术介绍
构建的汉语句子模板可以用来进行句子匹配、分类、信息抽取等任务。目前模板挖掘方法是靠人编辑或机器自动统计，挖掘出类似正则表达式、或者挖掘出单纯的词性序列形式的模板。现有句子模板挖掘方法所挖掘出的模板表达能力有限，句子模板要么单纯用字符串模板，要么单纯用词性模板，这些句子模板的匹配能力比较有限。
技术实现思路
本专利技术提供一种汉语句子混合模板的挖掘方法及装置，用以解决现有句子模板匹配能力较差的缺陷。本专利技术实施例提供的一种汉语句子混合模板的挖掘方法，包括：获取预设文本，所述预设文本包括正例文本和负例文本；对所述预设文本中的每个句子分别进行分析处理，确定所述句子的每个词语的词语参数，所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项；根据所有词语的词语参数生成所述句子的候选模板，所述候选模板包括依次排列的所有词语的一项词语参数；根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表，并根据所述正例文本所有句子的候选模板生成正例模板集，根据所述负例文本所有句子的候选模板生成负例模板集；从所述模板列表中选取目标候选模板，根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型，所述正例次数为所述目标候选模板在所述正例模板集中出现的次数，所述负例次数为所述目标候选模板在所述负例模板集中出现的次数，所述模板类型包括正例模板和负例模板。在一种可能的实现方式中，所述根据所述目标候选模板的正例次数和负例次数确...
汉语句子混合模板的挖掘方法及装置

【技术保护点】
1.一种汉语句子混合模板的挖掘方法，其特征在于，包括：获取预设文本，所述预设文本包括正例文本和负例文本；对所述预设文本中的每个句子分别进行分析处理，确定所述句子的每个词语的词语参数，所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项；根据所有词语的词语参数生成所述句子的候选模板，所述候选模板包括依次排列的所有词语的一项词语参数；根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表，并根据所述正例文本所有句子的候选模板生成正例模板集，根据所述负例文本所有句子的候选模板生成负例模板集；从所述模板列表中选取目标候选模板，根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型，所述正例次数为所述目标候选模板在所述正例模板集中出现的次数，所述负例次数为所述目标候选模板在所述负例模板集中出现的次数，所述模板类型包括正例模板和负例模板。

【技术特征摘要】
1.一种汉语句子混合模板的挖掘方法，其特征在于，包括：获取预设文本，所述预设文本包括正例文本和负例文本；对所述预设文本中的每个句子分别进行分析处理，确定所述句子的每个词语的词语参数，所述词语参数包括词语的分词结果、词性、命名实体、依赖关系中的一项或多项；根据所有词语的词语参数生成所述句子的候选模板，所述候选模板包括依次排列的所有词语的一项词语参数；根据所有句子的所有候选模板合并生成不含有重复候选模板的模板列表，并根据所述正例文本所有句子的候选模板生成正例模板集，根据所述负例文本所有句子的候选模板生成负例模板集；从所述模板列表中选取目标候选模板，根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型，所述正例次数为所述目标候选模板在所述正例模板集中出现的次数，所述负例次数为所述目标候选模板在所述负例模板集中出现的次数，所述模板类型包括正例模板和负例模板。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标候选模板的正例次数和负例次数确定所述目标候选模板的模板类型包括：确定所述目标候选模板在所述正例模板集中出现的正例次数N1和所述目标候选模板在所述负例模板集中出现的负例次数N2；当N1/(N1+N2+1)>a时，所述目标候选模板为正例模板；当N2/(N1+N2+1)>b时，所述目标候选模板为负例模板；其中，a和b为预设系数，且a+b≥1。3.根据权利要求2所述的方法，其特征在于，所述预设系数为根据所述正例模板集中的模板数量和所述负例模板集中的模板数量确定的数值。4.根据权利要求1所述的方法，其特征在于，所述预设文本中每个句子包含的词语数量相同，且所述正例文本中每个句子包含的词语数量与所述负例文本中每个句子包含的词语数量相同。5.根据权利要求1所述的方法，其特征在于，在所述确定所述目标候选模板的模板类型之后，还包括：根据所有词语的词语参数生成所述句子的二级候选模板，所述二级候选模板包括依次排列的所有词语的一项或多项词语参数，且所述二级候选模板中至少包括一个词语的多项词语参数；确定所述二级候选模板所包含的子候选模板，所述子候选模板为根据所有词语的所述二级候选模板包含的一项词语参数生成的候选模板；当所述二级候选模板中所有的子候选模板的模板类型相同时，将子候选模板的模板类型作为所述二级候选模板的模板类型；并判断当前二级候选模板所包含的所有子候选模板是否是其他具有相同模板类型的二级候选模板的子候选模板集的子集；若是，则删除当前二级候选模板；将最终保留的二级候选模板作为所述句子最终选取的二级候选模板。6.一种汉语句子混合模板的挖掘装置，其特征在于，包括：获取模块，...

【专利技术属性】
技术研发人员：任禾，
申请(专利权)人：北京云知声信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人