【技术实现步骤摘要】
字段抽取引擎的生成方法及装置、电子设备、存储介质
[0001]本申请涉及自然语言处理
,特别涉及一种字段抽取引擎的生成方法及装置、电子设备、计算机可读存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)系统包含两大类:一类是机器学习系统,另一类是传统的规则系统。自然语言处理系统可以应用于在多个领域的信息抽取任务。例如,智能助理对话系统的一项关键任务是问句理解,包括识别问句的意图(intent)以及抽取问句中的相关角色槽位(role slots)。从信息抽取的角度来看,抽取角色槽位就是字段抽取,识别意图就是问句分类。示例性的,对于订票方面的问句,智能助理可从问句中抽取如下槽位信息点(也就是技能开发中所称的“角色槽位”):时间(time)、出发地(FromLocation)、目的地(ToLocation)、交通方式(VehicleType)等;可识别的意图包括:订票(Booking)、退票(Canceling)等。对于音乐方面的问句,智能助理可从问句中抽取如下槽位 ...
【技术保护点】
【技术特征摘要】
1.一种字段抽取引擎的生成方法,其特征在于,包括:针对样例集中每一样例语料,生成与所述样例语料对应的样例规则,获得多个样例规则;逐个选中每一样例规则,作为目标样例规则,并对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理;将完成泛化处理的目标样例规则作为字段抽取规则,获得多个字段抽取规则;基于所述多个字段抽取规则解释或编译出规则模块,并获得基于所述规则模块的字段抽取引擎。2.根据权利要求1所述的方法,其特征在于,所述生成与所述样例语料对应的样例规则,包括:对所述样例语料进行分词处理,得到多个词节点;基于所述样例语料中若干标注字段确定所述多个词节点中的字段左右边界,以及每一标注字段的字段标签,构造所述样例规则;其中,所述标注字段为携带字段标签的字段,所述标注字段包括若干词节点。3.根据权利要求1所述的方法,其特征在于,所述对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理,包括:对所述目标样例规则进行一轮泛化处理;在一轮泛化处理后,根据泛化处理后的目标样例规则和当前规则集,分别对开发集的语料和召回测试集的语料进行字段抽取,获得抽取结果;根据所述抽取结果判断经过一轮泛化处理的目标样例规则是否通过质量测试,并根据判断结果进行下一轮泛化处理;当所述目标样例规则达到终止泛化条件时,确定所述目标样例规则完成所有轮次泛化处理,并将完成所有轮次泛化处理的目标样例规则放入所述当前规则集。4.根据权利要求3所述的方法,其特征在于,在所述针对样例集中每一样例语料,生成与所述样例语料对应的样例规则之前,所述方法还包括:从目标业务领域的原始数据源获取第一指定数量的多个字符串,作为语料构建所述开发集;从所述原始数据源获取第二指定数量的多个字符串,作为语料构建所述召回测试集;从所述开发集中选取第三指定数量的多个语料,并对选择的多个语料进行标注,获得样例集。5.根据权利要求3所述的方法,其特征在于,所述抽取结果包括所述开发集对应的第一抽取结果,以及所述召回测试集对应的第二抽取结果;根据所述抽取结果判断经过一轮泛化处理的目标样例规则是否通过质量测试,所述方法还包括:响应于比对指令,确定所述第一抽取结果与所述开发集的基准抽取结果之间的差异槽位信息点;当所述差异槽位信息点的精确率满足预设精确率阈值,判断所述第二抽取结果中槽位信息点数量,超出所述召回测试集的基准槽位信息点数量的比例是否超过比例阈值;若是,确定经过一轮泛化处理的目标样例规则通过质量测试,否则,确定经过一轮泛化
处理的目标样例规则未通过质量测试。6.根据权利要求5所述的方法,其特征在于,在所述确定经过一轮泛化处理的目标样例规则通过质量测试之后,所述方法还包括:将所述第一抽...
【专利技术属性】
技术研发人员:李维,秦海龙,林天兵,彭滢,穆啸天,刘郑勇,
申请(专利权)人:上海弘玑信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。