一种长文本的标签生成方法、装置、设备及存储介质制造方法及图纸

技术编号:35275036 阅读:17 留言:0更新日期:2022-10-19 10:53
本发明专利技术涉及人工智能领域,提供一种长文本的标签生成方法、装置、设备及存储介质,使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,输出目标长文本的目标文本向量,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签,通过自监督模型获取带有标签的训练集,并通过双塔模型获取长文本的文本向量,直接与保存的已有标签向量进行相似性计算,减少了计算次数,从而可以快速生成长文本对应的标签。签。签。

【技术实现步骤摘要】
一种长文本的标签生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种长文本的标签生成方法、装置、设备及存储介质。

技术介绍

[0002]标签是一种互联网内容组织方式,是相关性很强的关键字,标签帮助人们轻松的描述内容或者将内容进行分类,以便于检索和分享。目前,给文本添加标签的方法有人工标签,专业人员手动给文本指定特定标签,若采用人工方式,虽然对文本的标签较准确,但消耗大量人力物力,标签效率较低,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难,因此,如何快速生成文本标签成为了亟待解决的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种长文本的标签生成方法、装置、设备及存储介质,以解决如何快速生成长文本标签的问题。
[0004]第一方面,提供一种长文本的标签生成方法,所述方法包括:
[0005]使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
[0006]通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
[0007]将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
[0008]计算所述目标文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
[0009]第二方面,提供一种长文本的标签生成装置,所述装置包括:
[0010]预测模块,用于使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
[0011]训练模块,用于通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
[0012]目标文本向量确定模块,用于将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
[0013]目标标签确定模块,用于计算所述目标长文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对
所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
[0014]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的长文本的标签生成方法。
[0015]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的长文本的标签生成方法。
[0016]本专利技术与现有技术相比存在的有益效果是:
[0017]使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量,将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量;计算目标文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签,通过自监督模型获取带有标签的训练集,并通过双塔模型获取长文本的文本向量,直接与保存的已有标签向量进行相似性计算,减少了计算次数,从而可以快速生成长文本对应的标签。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例提供的一种长文本的标签生成方法的一应用环境示意图;
[0020]图2是本专利技术一实施例提供的一种长文本的标签生成方法的流程示意图;
[0021]图3是本专利技术一实施例提供的一种长文本的标签生成方法的流程示意图;
[0022]图4是本专利技术一实施例提供的一种长文本的标签生成装置的结构示意图;
[0023]图5是本专利技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0026]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关
联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0027]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0028]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0029]在本专利技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本专利技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本的标签生成方法,其特征在于,所述生成方法包括:使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;计算所述目标文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。2.如权利要求1所述的长文本的标签生成方法,其特征在于,所述使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集之前,还包括:对所述待标注的长文本进行切词处理与去停用词预处理,得到标准的待标注的长文本。3.如权利要求1所述的长文本的标签生成方法,其特征在于,所述使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,包括:利用待标注语料库中的待标注的长文本以掩码语言模型的方式对初始自监督模型进行训练,得到预设的自监督模型;根据所述预设的自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签。4.如权利要求1所述的长文本的标签生成方法,其特征在于,所述通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,包括:根据所述预训练样本集中所述长文本与对应的标签,构建正样本集与负样本集;根据所述正样本集与负样本集以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型。5.如权利要求4所述的长文本的标签生成方法,其特征在于,所述根据所述预训练样本集中所述长文本与对应的标签,构建正样本集与负样本集;,包括:获取任意所述长文本与所述长文本的标签,构建正样本...

【专利技术属性】
技术研发人员:张智
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1