【技术实现步骤摘要】
语料生成方法、装置、设备及计算机可读存储介质
本专利技术涉及大数据处理,尤其涉及一种语料生成的方法、装置、电子设备及计算机可读存储介质。
技术介绍
在自然语言处理(NLP)领域,语料的生成问题一直是测试工作的一大难题,如何快速生成大批量有效测试语料,已经成为NLP算法测试工作者必须面对且寻求解决的一道坎;在自然语言处理系统中,有意图识别算法的子系统,它是由意图管理—对话管理—词槽管理—词典管理—答案配置管理五大功能组成的子系统;在意图识别算法子系统中对话管理功能实现了意图与对话模板之间的关联关系;同时实现对话模板与槽位之间的关联关系。一个对话模板是由意图中的不同词槽(slot)字段组成的;词槽管理实现的是词槽信息与词典之间的关联关系。词典管理存储着词典字段及对应的词典值。目前业界内出现了测试领域中用例覆盖不充分的问题。NLP意图识别测试中测试语料库的建设也面临着同样的难题。人工无法从已有的对话模板中进行有效快速的语料生成,通过人工生成的方法在实际工作可行度不高。因此语料的生成方法也成为业界必须面临解决的问题之一。r>在目前业界存在各本文档来自技高网...
【技术保护点】
1.一种语料生成方法,其特征在于,所述方法包括:/n根据意图语料生成指令,获取与所述意图语料生成指令相对应的意图语料模板;/n获取所述意图语料模板中的词槽字段,并对所述词槽字段的位置进行排列组合,得到带有空白槽位的初级语料语句;/n通过预设同义词扩展模型,对所述初级语料语句中的词槽字段进行同义词扩展,得到带有空白槽位的扩展初级语料语句;/n根据所述扩展初级语料语句的空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料。/n
【技术特征摘要】
1.一种语料生成方法,其特征在于,所述方法包括:
根据意图语料生成指令,获取与所述意图语料生成指令相对应的意图语料模板;
获取所述意图语料模板中的词槽字段,并对所述词槽字段的位置进行排列组合,得到带有空白槽位的初级语料语句;
通过预设同义词扩展模型,对所述初级语料语句中的词槽字段进行同义词扩展,得到带有空白槽位的扩展初级语料语句;
根据所述扩展初级语料语句的空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料。
2.根据权利要求1所述的语料生成方法,其特征在于,所述根据意图语料生成指令,获取与所述意图语料生成指令相对应的意图语料模板包括:
获取意图语料生成指令,其中,所述意图语料生成指令包括意图信息;
从预设意图列表中选取与所述意图信息相对应的意图语料模板;其中,所述预设意图列表包括意图信息和与所述意图信息相对应的意图语料模板。
3.根据权利要求1所述的语料生成方法,其特征在于,所述获取所述意图语料模板中的词槽字段,并对所述词槽字段的位置进行排列组合,得到带有空白槽位的初级语料语句包括:
从所述意图语料模板中提取词槽字段,生成词槽列表;其中,所述意图语料模板包括与所述意图信息相匹配的词槽字段;
对所述词槽列表中的词槽字段进行排列组合,将排列组合后带有空白槽位的词槽列表作为初级语料语句。
4.根据权利要求1所述的语料生成方法,其特征在于,所述预设同义词扩展模型存储于区块链中,所述预设同义词扩展模型包括:
获取所述初级语料语句的输入层、从预设词典库中获取与所述初级语料语句中的词槽字段属于同类别的同类词的同类词获取层、对所述初级语料语句中的词槽字段和所述同类词分别进行向量化处理的词向量处理层、通过相似度计算公式对所述词向量处理层得到的词槽字段向量和同类词向量进行相似度计算的相似度计算层、将与所述相似度计算层得到的计算结果大于预设相似度阈值的同类词向量所对应的同类词作为扩展词语的词语扩展层、将所述扩展词语替换相对应的词槽字段以形成同义初级语料语句的扩展替换层和将所述初级语料语句与所述同义初级语料语句一同作为扩展初级语料语句输出的输出层。
5.根据权利要求1所述的语料生成方法,其特征在于,所述根据所述扩展初级语料语句的空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料包括:
从所述扩展初级语料语句中获取空白槽位的位置;
根据所述空白槽位的位置以及预设词性鉴定模板,确定所述空白槽位所需填入词的词性;
根据所述空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料。
6.根据权利要...
【专利技术属性】
技术研发人员:陆海鹏,
申请(专利权)人:深圳赛安特技术服务有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。