基于会话摘要的标签增强方法及装置制造方法及图纸

技术编号:35197776 阅读:13 留言:0更新日期:2022-10-12 18:31
本申请公开了一种基于会话摘要的标签增强方法及装置,包括,获取待打标签的会话摘要;对所述待打标签的会话摘要分别进行第一编码和第二编码;将所述第一编码和第二编码按照预设比例进行融合得到融合编码;根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。该基于会话摘要的标签增强方法及装置,提高了标签数据质量。提高了标签数据质量。提高了标签数据质量。

【技术实现步骤摘要】
基于会话摘要的标签增强方法及装置


[0001]本申请涉及计算机
,尤指一种基于会话摘要的标签增强方法及装置。

技术介绍

[0002]在监督学习中,标签作为一个非常重要的角色在一定程度上决定了算法在实际场景的表现。目前数据标签的来源主要依靠数据标注工程师来完成,该工作不仅代价高,而且数据质量一定程度上取决于工程师们的标准经验。此外,互联网大数据已经呈现出爆炸趋势,如果单纯依赖人工去完成数据打标任务,将在一定程度上限制算法的迭代速度。基于迁移学习的数据标签扩充是利用深度学习技术将某一领域的数据知识迁移到目标领域中来,然后基于该领域的数据标签进行后续算法的训练、微调,但是该方法不能解决领域知识的跨域问题,从而导致对已有知识的利用率并不是很高,而且如果相关领域的数据知识并不存在的情况下,深度学习方法也表现的无能为力。
[0003]目前扩充数据标签的方法有两种,第一种基于人工的数据标签扩充:对于新获取的数据采用人工标注的方法进行标注,获得对应的数据标签;第二种利用深度学习技术将某一领域的数据知识迁移到目标领域中来,然后基于该领域的数据标签进行后续算法的训练、微调,但是该方法不能解决领域知识的跨域问题,从而导致对已有知识的利用率并不是很高,而且如果相关领域的数据知识并不存在的情况下,深度学习方法也表现的无能为力。

技术实现思路

[0004]本申请提供了一种基于会话摘要的标签增强方法及装置,该基于会话摘要的标签增强方法及装置,提高了标签数据质量。
[0005]本申请提供了一种基于会话摘要的标签增强方法,包括:
[0006]获取待打标签的会话摘要;
[0007]对所述待打标签的会话摘要分别进行第一编码和第二编码;
[0008]将所述第一编码和第二编码按照预设比例进行融合得到融合编码;
[0009]根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。
[0010]一种示例性的实施例中,所述待打标签的会话摘要包括无标签的会话摘要、标签不完整或不准确的会话摘要;
[0011]所述第一编码为文本编码;
[0012]对所述待打标签的会话摘要进行第一编码,包括:对所述待打标签的会话摘要进行文本编码;
[0013]对所述待打标签的会话摘要进行文本编码,包括:
[0014]对所述待打标签的会话摘要进行预处理得到会话序列;根据所述会话序列生成会话序列的向量编码;根据所述向量编码得到文本编码。
[0015]一种示例性的实施例中,对所述待打标签的会话摘要进行预处理得到会话序列,包括:
[0016]还原所述待打标签的会话摘要的上下文语境信息;
[0017]将所述待打标签的会话摘要和上下文语境信息按照时间顺序拼接在一起,得到会话序列。
[0018]一种示例性的实施例中,根据所述会话序列生成会话序列的向量编码,包括:
[0019]将所述会话序列以向量形式表示;
[0020]将以向量形式表示的会话序列映射到高维向量空间,得到所述会话序列的向量编码。
[0021]一种示例性的实施例中,根据所述向量编码得到文本编码,包括:
[0022]将所述会话序列的向量编码输入到Deep model1中进行处理,得到文本编码。
[0023]一种示例性的实施例中,所述第二编码为知识编码;
[0024]对所述待打标签的会话摘要进行第二编码,包括:对所述待打标签的会话摘要进行知识编码;
[0025]对所述待打标签的会话摘要进行知识编码,包括:
[0026]根据所述待打标签的会话摘要得到多个不同的概念实体;根据多个不同的概念实体得到概念实体向量;根据所述概念实体向量生成所述多个不同的概念实体的编码;根据所述多个不同的概念实体的编码得到知识编码。
[0027]一种示例性的实施例中,根据所述待打标签的会话摘要得到多个不同的概念实体,包括:
[0028]对所述待打标签的会话摘要进行实体识别得到所述待打标签的会话摘要的实体属性;
[0029]从预设的知识图谱中获取所述实体属性对应的概念化表示,得到所述待打标签的会话摘要的多个不同的概念实体;
[0030]根据多个不同的概念实体得到概念实体向量,包括:
[0031]根据多个不同的概念实体生成以向量形式表示的概念实体并映射到高维空间,得到概念实体向量;
[0032]根据所述概念实体向量生成所述多个不同的概念实体的第三编码;根据所述多个不同的概念实体的编码得到知识编码,包括:
[0033]将所述概念实体向量通过Deep model2或类Bert的模型进行第三编码;对所述第三编码通过Self

attention模块再次编码得到第四编码;通过预设的神经网络得到所述第四编码对应的知识编码。
[0034]一种示例性的实施例中,根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签,包括:
[0035]将所述融合编码输入到预设的打标模型得到不同标签及不同标签的标签概率;
[0036]将概率值最大的标签作为所述待打标签的会话摘要的标签。
[0037]一种示例性的实施例中,所述预设的打标模型按照如下方式得到:
[0038]基于历史数据构建训练数据集、验证集和测试数据集;其中,所述历史数据包括非样本数据,所述非样本数据包括标签不完整或不准确的会话摘要及其相应的标签;
[0039]根据所述训练数据集、验证集和测试数据集分别对预设的深度学习模型进行训练、验证和测试,得到所述预设的打标模型。
[0040]本申请提供了一种基于会话摘要的标签增强的装置,包括存储器和处理器,其特征在于:
[0041]所述存储器,用于保存用于基于会话摘要的标签增强的程序;
[0042]所述处理器,用于读取执行所述用于基于会话摘要的标签增强的程序,执行上述的基于会话摘要的标签增强方法。
[0043]本申请包括以下优点:
[0044]本申请至少一个实施例通过获取待打标签的会话摘要;对所述待打标签的会话摘要分别进行第一编码和第二编码;将所述第一编码和第二编码按照预设比例进行融合得到融合编码;根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签,提高了标签数据质量。
[0045]本申请至少一个实施例基于会话摘要解决数据标签的增强以及标签的热更新问题,实现数据标签的增量式更新,降低甚至直接去除人工打标的参与过程,直接利用会话摘要数据直接完成对现有标签体系的增强以及增量更新问题。
[0046]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
[0047]附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于会话摘要的标签增强方法,其特征在于,获取待打标签的会话摘要;对所述待打标签的会话摘要分别进行第一编码和第二编码;将所述第一编码和第二编码按照预设比例进行融合得到融合编码;根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。2.如权利要求1所述的方法,其特征在于,所述待打标签的会话摘要包括无标签的会话摘要、标签不完整或不准确的会话摘要。3.如权利要求1或2所述的方法,其特征在于,所述第一编码为文本编码;对所述待打标签的会话摘要进行第一编码,包括:对所述待打标签的会话摘要进行文本编码;对所述待打标签的会话摘要进行文本编码,包括:对所述待打标签的会话摘要进行预处理得到会话序列;根据所述会话序列生成会话序列的向量编码;根据所述向量编码得到文本编码;对所述待打标签的会话摘要进行预处理得到会话序列,包括:还原所述待打标签的会话摘要的上下文语境信息;将所述待打标签的会话摘要和上下文语境信息按照时间顺序拼接在一起,得到会话序列。4.如权利要求3所述的方法,其特征在于,根据所述会话序列生成会话序列的向量编码,包括:将所述会话序列以向量形式表示;将以向量形式表示的会话序列映射到高维向量空间,得到所述会话序列的向量编码。5.如权利要求3所述的方法,其特征在于,根据所述向量编码得到文本编码,包括:将所述会话序列的向量编码输入到Deep model1中进行处理,得到文本编码。6.如权利要求1所述的方法,其特征在于,所述第二编码为知识编码;对所述待打标签的会话摘要进行第二编码,包括:对所述待打标签的会话摘要进行知识编码;对所述待打标签的会话摘要进行知识编码,包括:根据所述待打标签的会话摘要得到多个不同的概念实体;根据多个不同的概念实体得到概念实体向量;根据所述概念实体向量生成所述多个不同的概念实体的编码;根据所述多...

【专利技术属性】
技术研发人员:赵亮朱志强徐凯波
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1