一种多轮倾听对话模型中的数据压缩与高性能计算方法技术

技术编号:35520791 阅读:28 留言:0更新日期:2022-11-09 14:40
本发明专利技术涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。该方法实现阶段包括:数据预处理阶段、数据向量化阶段、向量聚合阶段、模型拟合阶段、并行计算阶段。本发明专利技术涉及的技术包括:预训练语言模型、深度循环神经网络、注意力机制、并行计算。本发明专利技术中所提出的技术方案在有限的计算性能与开发周期内,使得语言模型同时具备强对话策略约束与足够的知识广度。广度。广度。

【技术实现步骤摘要】
一种多轮倾听对话模型中的数据压缩与高性能计算方法


[0001]本专利技术涉及计算机软件
,特别涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。

技术介绍

[0002]人机对话技术作为自然语言处理的核心研究内容,对该技术的研究与应用是学界与业界的关注重点。在近十年的井喷式发展后,涌现出诸如注意力机制、预训练模型、端到端方法以及迁移学习等领域热点,推动了人机对话技术的发展。
[0003]在实际应用中,人机对话系统被分为任务型与非任务型对话系统。任务型对话系统面向垂直领域,目的是在有限的对话次数中满足用户的要求,常见的应用场景例如在线客服、机票预订助手等。非任务型对话系统面向的领域更为开放,对话的话题更为自由,对话内容涉及的领域更为广泛,构建系统需要的数据更为多样性。
[0004]随着人机对话技术的演进,催生了存在横跨任务型与非任务型对话系统的应用场景,例如心理健康领域的倾听对话系统。此类对话系统的目的是模拟真人咨询师的谈话策略,主要以倾听的方式引导来访者倾诉自身的遭遇与困惑,并由对话系统根据来访者所述给出对应的安慰与调解语句,以达到为来访者排解忧虑的作用。
[0005]对于对话倾听系统,目前常见的实现方式是基于大规模预训练模型,对现有的特定领域预料进行进一步拟合,但由于模型复杂度高、数据集庞大等因素,在常见的计算设备上拟合模型所消耗的时间往往是数周乃至数月。在追求敏捷开发快速迭代的当下,这样的时间成本是十分昂贵的。并且现有方案对于对话双方的文本数据采用均等的拟合权重,对于对话策略的拟合缺少数据与理论支持。

技术实现思路

[0006]本专利技术的目的在于提供一种多轮倾听对话模型中的数据压缩与高性能计算方法,在有限的计算资源下,使得语言模型同时具备强对话策略约束与足够的知识广度。
[0007]为实现上述目的,本专利技术的技术方案是:一种多轮倾听对话模型中的数据压缩与高性能计算方法,包括:
[0008]数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;
[0009]数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;
[0010]向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;
[0011]模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;
[0012]并行计算阶段,采用并行计算并行聚合的计算方式。
[0013]在本专利技术一实施例中,所述数据预处理阶段,通过人工少量数据标记的方式对倾
诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。
[0014]在本专利技术一实施例中,所述倾诉数据的数据格式为对话文本序列。
[0015]在本专利技术一实施例中,所述数据向量化阶段,根据倾诉数据中出现的中文字符,构建中文语料字典,使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。
[0016]在本专利技术一实施例中,所述向量聚合阶段,对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入所述中文语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。
[0017]在本专利技术一实施例中,对自杀相关词汇进行进一步统计,并构建自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。
[0018]在本专利技术一实施例中,中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。
[0019]在本专利技术一实施例中,所述模型拟合阶段,将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算,其中,
[0020][0021]在前向计算的过程中,向量序列H会先输入自注意力模型进行编码,即
[0022][0023]其中,查询向量Q=W
q
H,键向量K=W
k
H,值向量V=W
v
H;D
k
是Q和K中列向量的维度,为三个投影矩阵;
[0024]经过自注意力模型编码后,将向量序列H输入后续的前向计算流程;在数据完成前向计算之后,遍历本批次内的样本计算损失函数,选择CrossEntropy作为损失函数:
[0025][0026]其中,Y
标签
∈{0,1}
C
为标签对应的one

hot向量表示;
[0027]给定数据集为将每个样本x
(n)
输入前向计算流程,输出为Y
预测值
;基于数据预处理阶段中对倾诉数据的倾诉文本标记,在遍历到倾诉文本时不计算损失函数。
[0028]在本专利技术一实施例中,所述并行计算阶段,在前向计算与反向传播时,将计算任务分为n份,在计算周期内每个计算节点独立不重复的计算一部分任务,并在计算周期结束时将计算结果传递给相邻下一个计算节点,并同时从相邻的上一节点获取一份计算结果;在所有计算周期结束时,启动同步阶段,存有完整计算数据的节点将相应的数据块传递给相邻节点,并接力传递至所有节点。
[0029]相较于现有技术,本专利技术具有以下有益效果:本专利技术方法在大数据大规模计算的场景下显著提升集群计算资源的利用率。并且在任务型对话场景中,能够在控制谈话边界与策略的情况下同时保证机器生成文本的多样性以及谈话体验的真实性。
[0030]用户在使用本专利技术所提出的模型拟合与构建方案时,可以降低计算与时间成本,并且通过直接的数据标记,就可以将对话策略信息转化为模型可理解的数学表示,通过构
建词表这一直观的方式,可以对心理健康对话等特殊场景下的对于自杀等特定倾向文本做到及时高效的检测。并且由于本专利技术在损失函数计算中设计的遮罩优化操作,使得在强策略强边界场景下的谈话内容的个性化可定制成为了现实的可能。
附图说明
[0031]图1为本专利技术方法流程示意图。
[0032]图2为本专利技术数据预处理阶段示意图。
[0033]图3为本专利技术数据向量化阶段示意图。
[0034]图4为本专利技术模型拟合阶段示意图。
[0035]图5为本专利技术并行计算阶段示意图。
具体实施方式
[0036]下面结合附图,对本专利技术的技术方案进行具体说明。
[0037]如图1所示,本专利技术一种多轮倾听对话模型中的数据压缩与高性能计算方法,包括:
[0038]数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;
[0039]数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;
[0040]向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;
[0041]模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;
[0042]并行计算阶段,采用并行计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,包括:数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;并行计算阶段,采用并行计算并行聚合的计算方式。2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述数据预处理阶段,通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述倾诉数据的数据格式为对话文本序列。4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述数据向量化阶段,根据倾诉数据中出现的中文字符,构建中文语料字典,使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述向量聚合阶段,对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入所述中文语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。6.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,对自杀相关词汇进行进一步统计,并构建自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。7.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于...

【专利技术属性】
技术研发人员:郑义恒肖永强
申请(专利权)人:厦门靠谱云股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1