【技术实现步骤摘要】
一种多轮倾听对话模型中的数据压缩与高性能计算方法
[0001]本专利技术涉及计算机软件
,特别涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。
技术介绍
[0002]人机对话技术作为自然语言处理的核心研究内容,对该技术的研究与应用是学界与业界的关注重点。在近十年的井喷式发展后,涌现出诸如注意力机制、预训练模型、端到端方法以及迁移学习等领域热点,推动了人机对话技术的发展。
[0003]在实际应用中,人机对话系统被分为任务型与非任务型对话系统。任务型对话系统面向垂直领域,目的是在有限的对话次数中满足用户的要求,常见的应用场景例如在线客服、机票预订助手等。非任务型对话系统面向的领域更为开放,对话的话题更为自由,对话内容涉及的领域更为广泛,构建系统需要的数据更为多样性。
[0004]随着人机对话技术的演进,催生了存在横跨任务型与非任务型对话系统的应用场景,例如心理健康领域的倾听对话系统。此类对话系统的目的是模拟真人咨询师的谈话策略,主要以倾听的方式引导来访者倾诉自身的遭遇与困惑,并由对话系统根据来访者所述 ...
【技术保护点】
【技术特征摘要】
1.一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,包括:数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;并行计算阶段,采用并行计算并行聚合的计算方式。2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述数据预处理阶段,通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述倾诉数据的数据格式为对话文本序列。4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述数据向量化阶段,根据倾诉数据中出现的中文字符,构建中文语料字典,使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述向量聚合阶段,对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入所述中文语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。6.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,对自杀相关词汇进行进一步统计,并构建自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。7.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于...
【专利技术属性】
技术研发人员:郑义恒,肖永强,
申请(专利权)人:厦门靠谱云股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。