一种长文本的标签生成方法、装置、设备及存储介质制造方法及图纸

技术编号：35275036 阅读：17 留言：0更新日期：2022-10-19 10:53

本发明专利技术涉及人工智能领域，提供一种长文本的标签生成方法、装置、设备及存储介质，使用预设的自监督模型对待标注的长文本进行标注预测处理，确定标注预测结果为长文本的标签，将长文本与对应的标签作为预训练样本集，通过预训练样本集对预设的双塔模型进行训练，得到训练完成的双塔模型，输出目标长文本的目标文本向量，从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量，对目标标签向量进行反推，确定反推结果为目标长文本对应的目标标签，通过自监督模型获取带有标签的训练集，并通过双塔模型获取长文本的文本向量，直接与保存的已有标签向量进行相似性计算，减少了计算次数，从而可以快速生成长文本对应的标签。签。签。

全部详细技术资料下载

【技术实现步骤摘要】
一种长文本的标签生成方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种长文本的标签生成方法、装置、设备及存储介质。

技术介绍

[0002]标签是一种互联网内容组织方式，是相关性很强的关键字，标签帮助人们轻松的描述内容或者将内容进行分类，以便于检索和分享。目前，给文本添加标签的方法有人工标签，专业人员手动给文本指定特定标签，若采用人工方式，虽然对文本的标签较准确，但消耗大量人力物力，标签效率较低，无法快速适应互联网时代信息的极速增加以及社会发展的需求，实现十分困难，因此，如何快速生成文本标签成为了亟待解决的问题。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种长文本的标签生成方法、装置、设备及存储介质，以解决如何快速生成长文本标签的问题。
[0004]第一方面，提供一种长文本的标签生成方法，所述方法包括：
[0005]使用预设的自监督模型对待标注的长文本进行标注预测处理，确定标注预测结果为所述长文本的标签，将所述长文本与对应的标签作为预训练样本集；
[0006]通过预训练样本集对预设的双塔模型进行训练，得到训练完成的双塔模型，所述双塔模型的第一子塔用于将所述长文本转化为文本向量，所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量；
[0007]将待提取的目标长文本输入至所述训练完成的双塔模型，输出所述目标长文本的目标文本向量，并获取所述训练完成的双塔模型中存储的已有标签向量；
[0008]计算所述目标文本...

【技术保护点】

【技术特征摘要】
1.一种长文本的标签生成方法，其特征在于，所述生成方法包括：使用预设的自监督模型对待标注的长文本进行标注预测处理，确定标注预测结果为所述长文本的标签，将所述长文本与对应的标签作为预训练样本集；通过预训练样本集对预设的双塔模型进行训练，得到训练完成的双塔模型，所述双塔模型的第一子塔用于将所述长文本转化为文本向量，所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量；将待提取的目标长文本输入至所述训练完成的双塔模型，输出所述目标长文本的目标文本向量，并获取所述训练完成的双塔模型中存储的已有标签向量；计算所述目标文本向量与所述已有标签向量之间的相似度，从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量，对所述目标标签向量进行反推，确定反推结果为所述目标长文本对应的目标标签。2.如权利要求1所述的长文本的标签生成方法，其特征在于，所述使用预设的自监督模型对待标注的长文本进行标注预测处理，确定标注预测结果为所述长文本的标签，将所述长文本与对应的标签作为预训练样本集之前，还包括：对所述待标注的长文本进行切词处理与去停用词预处理，得到标准的待标注的长文本。3.如权利要求1所述的长文本的标签生成方法，其特征在于，所述使用预设的自监督模型对待标注的长文本进行标注预测处理，确定标注预测结果为所述长文本的标签，包括：利用待标注语料库中的待标注的长文本以掩码语言模型的方式对初始自监督模型进行训练，得到预设的自监督模型；根据所述预设的自监督模型，对待标注的长文本进行标注预测处理，确定标注预测结果为所述长文本的标签。4.如权利要求1所述的长文本的标签生成方法，其特征在于，所述通过预训练样本集对预设的双塔模型进行训练，得到训练完成的双塔模型，包括：根据所述预训练样本集中所述长文本与对应的标签，构建正样本集与负样本集；根据所述正样本集与负样本集以及预设的损失函数，对预设的双塔模型进行训练，得到训练完成的双塔模型。5.如权利要求4所述的长文本的标签生成方法，其特征在于，所述根据所述预训练样本集中所述长文本与对应的标签，构建正样本集与负样本集；，包括：获取任意所述长文本与所述长文本的标签，构建正样本...

【专利技术属性】
技术研发人员：张智，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人