一种提取实例模板的方法和设备技术

技术编号:16779306 阅读:87 留言:0更新日期:2017-12-12 23:43
本申请涉及计算机技术领域,特别涉及一种提取实例模板的方法和设备,用以解决现有技术在提取过程中产生大量价值较低的模板,造成实例模板库中模板存储的信息冗余的问题。本申请实施例将所有原始语料实例划分为多组;针对多组原始语料实例中的一组原始语料实例中的一个原始语料实例,确定原始语料实例中的变量集合,并根据变量集合确定原始语料实例对应的备选模板;针对多组原始语料实例中的一组原始语料实例,从原始语料实例对应的备选模板中提取实例模板。由于本申请实施例确定原始语料实例中所有变量集合,增大对备选模板的召回数量;并且从原始语料实例对应的备选模板中提取出实例模板,从而保证提取出的实例模板的质量更高。

A method and equipment for extracting instance templates

The application relates to the field of computer technology, in particular to a method and device for extracting instance templates, so as to solve the problem of redundant information generated by the existing technology in the extraction process, resulting in redundant information stored in template library. The embodiment of the invention is all the original examples of corpus is divided into several groups; for a primitive data instance of a group of the original corpus examples of original group examples of corpus in the corpus to determine the original instance variables, and according to a set of variables to determine the candidate template corresponding to the original corpus examples; for a set of primitive data examples original examples of corpus in the extraction case template from the alternative template instance corresponding in the original corpus. Due to the application example, we determine all variables set in the original corpus, increase the number of recalls of the alternative templates, and extract the instance template from the corresponding template of the original corpus, so as to ensure the quality of the extracted instance template is higher.

【技术实现步骤摘要】
一种提取实例模板的方法和设备
本申请涉及计算机
,特别涉及一种提取实例模板的方法和设备。
技术介绍
随着计算机技术的不断发展,互联网成为当今最为便捷的获取信息平台。互联网中存在大量的语言信息,不仅语言种类繁多,而且语言又处于时时刻刻的变化之中。为了便于互联网识别用户输入的各种语言信息,需要在互联网上存储大量的实例模板,在用户输入语言信息后,将用户输入的语言信息与实例模板进行匹配,从而识别出用户输入的语言信息。因此,实例模板的质量与互联网对用户输入的语言信息的识别能力密切相关。现有技术在抽取实例模板时,采用的方法大多是多级实例模板抽取方法。如图1所示,多级实例模板抽取方法分为三个步骤:步骤101、对原始语料实例进行预处理,包括对原始语料实例进行浅层句法分析,其中包括组块识别,介词短语识别和谓语中心词识别;步骤102、对预处理后的原始语料实例进行语义替换,根据单词的语义信息进行模板变量常量的确定;步骤103、对原始语料实例进行模板抽取,按照组块模板、介词短语模板、句子模板的顺序进行抽取,最终得到原始语料实例所对应的多级翻译模板。多级实例模板抽取方法需要对原始语料实例进行组块划分及介本文档来自技高网...
一种提取实例模板的方法和设备

【技术保护点】
一种提取实例模板的方法,其特征在于,该方法包括:根据原始语料实例之间的相似度,将所述原始语料实例划分为多组;针对所述多组中的一组原始语料实例中的任意一个原始语料实例:确定所述任意一个原始语料实例中的变量集合;根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板;针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取实例模板。

【技术特征摘要】
1.一种提取实例模板的方法,其特征在于,该方法包括:根据原始语料实例之间的相似度,将所述原始语料实例划分为多组;针对所述多组中的一组原始语料实例中的任意一个原始语料实例:确定所述任意一个原始语料实例中的变量集合;根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板;针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取实例模板。2.如权利要求1所述的方法,其特征在于,从所述原始语料实例对应的备选模板中提取实例模板之后,还包括:利用提取出的实例模板构建用于进行语义识别的模板库。3.如权利要求1所述的方法,其特征在于,所述变量集合包括下列类型中的部分或全部:单一变量、组合变量;其中,所述单一变量未嵌套其他变量,所述组合变量嵌套单一变量。4.如权利要求3所述的方法,其特征在于,所述变量为所述原始语料实例中能够进行抽象泛化的语料。5.如权利要求1所述的方法,其特征在于,所述根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板,包括:针对所述多组中的一组原始语料实例中的任意一个原始语料实例,根据所述原始语料实例中的变量,确定多个变量集合;对每个变量集合进行泛化处理,确定所述原始语料实例对应的备选模板。6.如权利要求3所述的方法,其特征在于,所述变量集合满足下列条件中的部分或全部:变量集合中变量的个数不大于第一阈值;变量集合中变量的长度不大于设定的片段数量;变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段。7.如权利要求1所述的方法,其特征在于,所述从所述原始语料实例对应的备选模板中提取实例模板,包括:针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板;其中,所述筛选条件为下列条件中的部分或全部:备选模板的模板覆盖度不小于第二阈值;备选模板的模板抽象度不小于第三阈值;备选模板中非变量的片段数量不小于第四阈值。8.如权利要求7所述的方法,其特征在于,根据下列方式确定所述备选模板的模板覆盖度:针对任意一个备选模板,将所述备选模板对应原始语料实例的数量作为所述备选模板的模板覆盖度。9.如权利要求7所述的方法,其特征在于,根据下列方式确定所述备选模板的模板抽象度:将所述备选模板的模板覆盖度和所述备选模板的长度的乘积,与所述备选模板对应的原始语料实例的长度之和的比值作为所述备选模板的模板抽象度。10.如权利要求1~9任一所述的方法,其特征在于,所述根据原始语料实例之间的相似度,将所述原始语料实例划分为多组,包括:将每个原始语料实例作为一个组;根据每两个原始语料实例之间的相似度,确定每两个组之间的相似度;将相似度最大的两个组合为一组;判断当前划分的组是否满足停止划分条件,如果满足,则停止划分,否则返回根据每两个原始语料实例之间的相似度,确定每两个组之间的相似度的步骤。11.如权利要求10所述的方法,其特征在于,所述停止划分条件为下列条件中的部分或全部:当前划分的组的数量不大于第五阈值;当前划分的组中每两个组之间最大的相似度满足设定的范围。12.一种提取实例模板的设备,其特征在于,包括:分组模块,用于根据原始语料实例之间的相似度,将所述原始语料实例划分为多组;确定模块,用于针对所述多组中的一组原始语料实例中的任意一个原始语料实例:确定所述任意一个原始语料实例中的...

【专利技术属性】
技术研发人员:史黎鑫张海波卞华明管陶然刘禹赵宇骆卫华林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1