【技术实现步骤摘要】
一种提高数据意图识别能力的文本数据增强方法及装置
[0001]本专利技术属于自然语言处理
,具体涉及一种提高数据意图识别能力的文本数据增强方法及装置。
技术介绍
[0002]随着新时代人民生活水平的提高,越来越多的人在日常生活中遇到一些健康问题时,更希望在网络平台上快速而方便地寻求。随着自然语言处理和语音识别技术的不断发展成熟,智能医疗问答机器人应运而生。
[0003]目前业界搭建一个智能医疗机器人普遍会出现一个少样本数据的问题,即用于训练智能医疗机器人的意图样本数据过少。在自然语言处理领域,意图代表着一类问题的统称。比如“今天杭州天气怎么样”、“明天北京天气如何”这样的句子都可以归于询问天气这一意图。如果在初期意图样本数据不足,智能医疗机器人可能会无法正确识别用户的意图,也就不能做出正确回复。丰富的意图样本数据是智能医疗机器人的重要基石,所以在构建智能医疗机器人前期,丰富的意图数据可提高其意图识别能力。
[0004]数据增强正是解决意图样本数据不足这一问题的方法之一。目前对于文本的数据增强方法主要有三类:释义、噪声和采样。释义是对句子中的词、短语在不改变其语义的情况下做一些更改,使之产生更多样式的句子。主要方案有同义词的修改、替换和删除等。噪声是指在不变更句子语义的情况下,对句子添加一些噪声数据从而提高鲁棒性。最后,采样是指掌握数据分布,并从数据分布中采样出新的样本。与基于释义的模型类似,但不同之处在于采样更依赖任务,需要标签和数据格式等任务信息。以上三种方法都比较简单易实现,但是实际应用场景 ...
【技术保护点】
【技术特征摘要】
1.一种提高数据意图识别能力的文本数据增强方法,其特征在于,包括:步骤(1)、使用自然语言处理技术将待增强文本数据进行分词、词性标注和依存句法分析,从而生成每个句子的依存句法解析树;所述依存句法解析树的每个节点包含分词和所述分词所属的依存关系;同时对每个句子进行标注,所述标签为所属类别;步骤(2)、遍历所有句子,对每个句子S
i
,i=1,2,
…
,N进行数据增强,直至完成所有句子的数据增强,具体如下:2
‑
1遍历所有句子,对句子S
i
,i=1,2,
…
,N与其他句子S
j
,j=1,2,
…
,N,i≠j进行依存句法解析树分析,获得多个当前句子S
i
与其他句子S
j
,j=1,2,
…
,N,i≠j具有相同树结构部分和不同树结构部分,其中与其他句子具有相同树结构部分记为具有相同结构的依存句法解析子树,与其他句子具有不同树结构部分记为具有不相同结构的依存句法解析子树;2
‑
2对句子S
i
的与句子S
j
具有相同结构的依存句法解析子树进行混合数据增强;具体是:2
‑2‑
1判断当前依存句法解析子树是否满足树高度小于预设值P,若否则不做操作;若是则继续判断句子S
i
与句子S
j
的当前依存句法解析子树上节点对应的分词是否相同,若相同则将句子S
i
中当前依存句法解析子树所有节点对应分词使用词向量模型进行语义替换,若不同则跳转至步骤(2
‑2‑
2);2
‑2‑
2判断当前依存句法解析子树上节点对应分词的标签是否相同,若相同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,若不同则将句子S
i
与句子S
j
具有相同结构的依存句法解析子树所有节点对应分词进行随机替换,并把类别标签按照替换后的节点数量在当前依存句法解析子树节点数量的比例作为新的标签;2
‑
3、将句子S
i
的与句子S
j
具有不相同结构的依存句法解析子树节点对应的分词输入到掩码语言模型中进行预测;2
‑
4、将步骤2
‑
2和步骤2
‑
3的输出数据进行拼接,数据标签更新与步骤2
‑
2中的标签保持一致;2
‑
5、重复步骤2
‑
1至2
‑
4直至完成句子S
i
与所有句子的依存句法解析树分析与数据增强。2.根据权利要求1所述方法,其特征在于,步骤(2)中若句子S
j
中具有相同结构的依存句...
【专利技术属性】
技术研发人员:黄剑平,巩帅,谢天豪,付雨,薛涛,
申请(专利权)人:杭州师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。