一种提高数据意图识别能力的文本数据增强方法及装置制造方法及图纸

技术编号:34537793 阅读:42 留言:0更新日期:2022-08-13 21:32
本发明专利技术公开一种提高数据意图识别能力的文本数据增强方法及装置,该方法基于依存句法解析树,将具有相同结构的依存句法解析子树的部分句子进行混合数据增强,具有不相同结构的依存句法解析子树的部分句子输入到掩码语言模型中进行预测。通过所述方法可以将一个少样本的数据集扩增为一个形式丰富的数据集,从而可以用意图分类识别的训练任务,提高其识别能力,增强其鲁棒性。增强其鲁棒性。增强其鲁棒性。

【技术实现步骤摘要】
一种提高数据意图识别能力的文本数据增强方法及装置


[0001]本专利技术属于自然语言处理
,具体涉及一种提高数据意图识别能力的文本数据增强方法及装置。

技术介绍

[0002]随着新时代人民生活水平的提高,越来越多的人在日常生活中遇到一些健康问题时,更希望在网络平台上快速而方便地寻求。随着自然语言处理和语音识别技术的不断发展成熟,智能医疗问答机器人应运而生。
[0003]目前业界搭建一个智能医疗机器人普遍会出现一个少样本数据的问题,即用于训练智能医疗机器人的意图样本数据过少。在自然语言处理领域,意图代表着一类问题的统称。比如“今天杭州天气怎么样”、“明天北京天气如何”这样的句子都可以归于询问天气这一意图。如果在初期意图样本数据不足,智能医疗机器人可能会无法正确识别用户的意图,也就不能做出正确回复。丰富的意图样本数据是智能医疗机器人的重要基石,所以在构建智能医疗机器人前期,丰富的意图数据可提高其意图识别能力。
[0004]数据增强正是解决意图样本数据不足这一问题的方法之一。目前对于文本的数据增强方法主要有三类:释义、噪声和采样。释义是对句子中的词、短语在不改变其语义的情况下做一些更改,使之产生更多样式的句子。主要方案有同义词的修改、替换和删除等。噪声是指在不变更句子语义的情况下,对句子添加一些噪声数据从而提高鲁棒性。最后,采样是指掌握数据分布,并从数据分布中采样出新的样本。与基于释义的模型类似,但不同之处在于采样更依赖任务,需要标签和数据格式等任务信息。以上三种方法都比较简单易实现,但是实际应用场景下,数据增强后的效果不尽人意。
[0005]基于此,本专利技术的关注点在于如何根据现有文本数据进行数据增强,以获得质量更高且丰富的文本数据,从而训练出一个具有更好的意图识别能力的和鲁棒性较高的意图分类模型。

技术实现思路

[0006]本专利技术的第一个目的是针对上述技术问题,提供一种提高数据意图识别能力的文本数据增强方法,该方法基于依存句法解析树,将具有相同依存句法解析子树结构的两个句子进行混合数据增强和语义替换。并再此基础上,通过掩码语言模型将相同依存句法解析子树之外的部分去最掩码预测生成。上述方法,可以将一个少样本的数据集扩增为一个形式丰富的数据集,从而可以用意图分类识别的训练任务,提高其识别能力,增强其鲁棒性。
[0007]一种提高数据意图识别能力的文本数据增强方法,包括步骤:
[0008]步骤(1)、使用自然语言处理技术将待增强文本数据进行分词、词性标注和依存句法分析,从而生成每个句子的依存句法解析树;所述依存句法解析树的每个节点包含分词和所述分词所属的依存关系;同时对每个句子进行标注,所述标签为所属类别;
[0009]步骤(2)、遍历所有句子,对每个句子S
i
,i=1,2,

,N进行数据增强,直至完成所有句子的数据增强,具体如下:
[0010]2‑
1遍历所有句子,对句子S
i
,i=1,2,

,N与其他句子S
j
,j=1,2,

,N,i≠j进行依存句法解析树分析,获得多个当前句子S
i
与其他句子S
j
,j=1,2,

,N,i≠j具有相同树结构部分和不同树结构部分,其中与其他句子具有相同树结构部分记为具有相同结构的依存句法解析子树,与其他句子具有不同树结构部分记为具有不相同结构的依存句法解析子树;
[0011]2‑
2对句子S
i
的与句子S
j
具有相同结构的依存句法解析子树进行混合数据增强;具体是:
[0012]2‑2‑
1判断当前依存句法解析子树是否满足树高度小于预设值P,若否则不做操作;若是则继续判断句子S
i
与句子S
j
的当前依存句法解析子树上节点对应的分词是否相同,若相同则将句子S
i
中当前依存句法解析子树所有节点对应分词使用词向量模型进行语义替换,若不同则跳转至步骤(2
‑2‑
2);
[0013]2‑2‑
2判断当前依存句法解析子树上节点对应分词的标签是否相同,若相同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,若不同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,并把类别标签按照替换后的节点数量在当前依存句法解析子树节点数量的比例作为新的标签;
[0014]2‑
3、将句子S
i
的与句子S
j
具有不相同结构的依存句法解析子树节点对应的分词输入到掩码语言模型中进行预测;
[0015]2‑
4、将步骤2

2和步骤2

3的输出数据进行拼接,数据标签更新与步骤2

2中的标签保持一致;
[0016]2‑
5、重复步骤2

1至2

4直至完成句子S
i
与所有句子的依存句法解析树分析与数据增强。
[0017]作为优选,步骤(2

1)中若句子S
j
中具有相同结构的依存句法解析子树数目与具有不相同结构的依存句法解析子树数目之比大于预设值P,则认为句子S
i
与句子S
j
相似度高,执行Dropout操作,忽略句子S
j
,然后将句子S
i
与下一个句子进行比较,重复步骤(2

1)。
[0018]作为优选,所述掩码语言模型采用改进Bert模型;所述改进Bert模型包括多层堆叠的transformer的encoder单元,所述transformer的encoder单元由多头注意力机制层Muliti

Head

Attention、归一化层Layer Normalization、前馈层Feedforword、归一化层Layer Normalization堆叠产生;
[0019]所述改进Bert模型是将Bert模型中的多层堆叠的transformer的encoder单元结构进行优化微调,具体过程为:
[0020]所述多头注意力机制层的输入编码向量是由掩码处理后的单词嵌入,以及位置嵌入和分割嵌入进行单位和,然后再拼接上分句符号[SEP]构成,其中掩码处理后的单词嵌入是单词嵌入进行随机MASK掩码处理得到,单词嵌入表示当前单词的语义信息,分割嵌入表示当前单词所在句子的索引嵌入,位置嵌入表示当前单词在句子中的位置信息。
[0021]本专利技术提出在原Bert模型encoder单元中多头注意力机制层的输入的编码向量中将用于分类模型的[CLS]句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提高数据意图识别能力的文本数据增强方法,其特征在于,包括:步骤(1)、使用自然语言处理技术将待增强文本数据进行分词、词性标注和依存句法分析,从而生成每个句子的依存句法解析树;所述依存句法解析树的每个节点包含分词和所述分词所属的依存关系;同时对每个句子进行标注,所述标签为所属类别;步骤(2)、遍历所有句子,对每个句子S
i
,i=1,2,

,N进行数据增强,直至完成所有句子的数据增强,具体如下:2

1遍历所有句子,对句子S
i
,i=1,2,

,N与其他句子S
j
,j=1,2,

,N,i≠j进行依存句法解析树分析,获得多个当前句子S
i
与其他句子S
j
,j=1,2,

,N,i≠j具有相同树结构部分和不同树结构部分,其中与其他句子具有相同树结构部分记为具有相同结构的依存句法解析子树,与其他句子具有不同树结构部分记为具有不相同结构的依存句法解析子树;2

2对句子S
i
的与句子S
j
具有相同结构的依存句法解析子树进行混合数据增强;具体是:2
‑2‑
1判断当前依存句法解析子树是否满足树高度小于预设值P,若否则不做操作;若是则继续判断句子S
i
与句子S
j
的当前依存句法解析子树上节点对应的分词是否相同,若相同则将句子S
i
中当前依存句法解析子树所有节点对应分词使用词向量模型进行语义替换,若不同则跳转至步骤(2
‑2‑
2);2
‑2‑
2判断当前依存句法解析子树上节点对应分词的标签是否相同,若相同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,若不同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,并把类别标签按照替换后的节点数量在当前依存句法解析子树节点数量的比例作为新的标签;2

3、将句子S
i
的与句子S
j
具有不相同结构的依存句法解析子树节点对应的分词输入到掩码语言模型中进行预测;2

4、将步骤2

2和步骤2

3的输出数据进行拼接,数据标签更新与步骤2

2中的标签保持一致;2

5、重复步骤2

1至2

4直至完成句子S
i
与所有句子的依存句法解析树分析与数据增强。2.根据权利要求1所述方法,其特征在于,步骤(2)中若句子S
j
中具有相同结构的依存句...

【专利技术属性】
技术研发人员:黄剑平巩帅谢天豪付雨薛涛
申请(专利权)人:杭州师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1