基于会话摘要的标签增强方法及装置制造方法及图纸

技术编号：35197776 阅读：13 留言：0更新日期：2022-10-12 18:31

本申请公开了一种基于会话摘要的标签增强方法及装置，包括，获取待打标签的会话摘要；对所述待打标签的会话摘要分别进行第一编码和第二编码；将所述第一编码和第二编码按照预设比例进行融合得到融合编码；根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。该基于会话摘要的标签增强方法及装置，提高了标签数据质量。提高了标签数据质量。提高了标签数据质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于会话摘要的标签增强方法及装置

[0001]本申请涉及计算机
，尤指一种基于会话摘要的标签增强方法及装置。

技术介绍

[0002]在监督学习中，标签作为一个非常重要的角色在一定程度上决定了算法在实际场景的表现。目前数据标签的来源主要依靠数据标注工程师来完成，该工作不仅代价高，而且数据质量一定程度上取决于工程师们的标准经验。此外，互联网大数据已经呈现出爆炸趋势，如果单纯依赖人工去完成数据打标任务，将在一定程度上限制算法的迭代速度。基于迁移学习的数据标签扩充是利用深度学习技术将某一领域的数据知识迁移到目标领域中来，然后基于该领域的数据标签进行后续算法的训练、微调，但是该方法不能解决领域知识的跨域问题，从而导致对已有知识的利用率并不是很高，而且如果相关领域的数据知识并不存在的情况下，深度学习方法也表现的无能为力。
[0003]目前扩充数据标签的方法有两种，第一种基于人工的数据标签扩充：对于新获取的数据采用人工标注的方法进行标注，获得对应的数据标签；第二种利用深度学习技术将某一领域的数据知识迁移到目标领域中来，然后基于该领域的数据标签进行后续算法的训练、微调，但是该方法不能解决领域知识的跨域问题，从而导致对已有知识的利用率并不是很高，而且如果相关领域的数据知识并不存在的情况下，深度学习方法也表现的无能为力。

技术实现思路

[0004]本申请提供了一种基于会话摘要的标签增强方法及装置，该基于会话摘要的标签增强方法及装置，提高了标签数据质量。
[0005]本申请提供了一种基于会话摘要的标签...

【技术保护点】

【技术特征摘要】
1.一种基于会话摘要的标签增强方法，其特征在于，获取待打标签的会话摘要；对所述待打标签的会话摘要分别进行第一编码和第二编码；将所述第一编码和第二编码按照预设比例进行融合得到融合编码；根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。2.如权利要求1所述的方法，其特征在于，所述待打标签的会话摘要包括无标签的会话摘要、标签不完整或不准确的会话摘要。3.如权利要求1或2所述的方法，其特征在于，所述第一编码为文本编码；对所述待打标签的会话摘要进行第一编码，包括：对所述待打标签的会话摘要进行文本编码；对所述待打标签的会话摘要进行文本编码，包括：对所述待打标签的会话摘要进行预处理得到会话序列；根据所述会话序列生成会话序列的向量编码；根据所述向量编码得到文本编码；对所述待打标签的会话摘要进行预处理得到会话序列，包括：还原所述待打标签的会话摘要的上下文语境信息；将所述待打标签的会话摘要和上下文语境信息按照时间顺序拼接在一起，得到会话序列。4.如权利要求3所述的方法，其特征在于，根据所述会话序列生成会话序列的向量编码，包括：将所述会话序列以向量形式表示；将以向量形式表示的会话序列映射到高维向量空间，得到所述会话序列的向量编码。5.如权利要求3所述的方法，其特征在于，根据所述向量编码得到文本编码，包括：将所述会话序列的向量编码输入到Deep model1中进行处理，得到文本编码。6.如权利要求1所述的方法，其特征在于，所述第二编码为知识编码；对所述待打标签的会话摘要进行第二编码，包括：对所述待打标签的会话摘要进行知识编码；对所述待打标签的会话摘要进行知识编码，包括：根据所述待打标签的会话摘要得到多个不同的概念实体；根据多个不同的概念实体得到概念实体向量；根据所述概念实体向量生成所述多个不同的概念实体的编码；根据所述多...

【专利技术属性】
技术研发人员：赵亮，朱志强，徐凯波，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人