标题简化方法、装置、设备和存储介质制造方法及图纸

技术编号:35423711 阅读:14 留言:0更新日期:2022-11-03 11:25
本公开关于一种标题简化方法、装置、电子设备和存储介质。所述方法包括:获取资源对象待简化的原始标题和资源对象的配图;对配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征;获取表征原始标题语义的标题编码特征,并对标题编码特征和配图编码特征进行融合,得到语义编码特征;根据语义编码特征获取资源对象简化后的标题。本公开中,既可以获取能够准确表征配图语义的配图编码特征,又可以通过结合配图编码特征和标题编码特征所生成语义编码特征获取简化后的标题,确保在保留关键信息的同时将无关信息去除,提高标题简化准确率。提高标题简化准确率。提高标题简化准确率。

【技术实现步骤摘要】
标题简化方法、装置、设备和存储介质


[0001]本公开涉及计算机技术,尤其涉及一种标题简化方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网发展,用户可以在网络平台上了解各种资源对象的信息,并发送相关的请求获取到指定的资源对象,例如从电子商务平台上获取资源对象。为使用户快速获取到资源对象的关键信息,可以通过多个关键词构建出用于介绍资源对象的标题,但是在标题字数有限的情况下,往往需要对原始标题进行精简。
[0003]在相关技术中,在对资源对象的原始标题进行精简时,为保留原始标题中的关键信息,可以获取资源对象的品牌信息和实体类型,然后再结合原始标题、品牌信息和实体类型获取简化后的标题。
[0004]然而,该方式虽然能够使精简后的标题保留原始标题中与资源对象的品牌信息和实体类型相关的关键信息,但是为增加资源对象的浏览量,原始标题中往往会包含一些与资源对象不相关的内容,上述方式难以准确判断原始标题中哪些是无关信息,因此,仍然存在标题简化准确率较低的问题。

技术实现思路

[0005]本公开提供一种标题简化方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中标题简化准确率较低的问题。本公开的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种标题简化方法,包括:
[0007]获取资源对象待简化的原始标题和所述资源对象的配图;
[0008]对所述配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
[0009]获取表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
[0010]根据所述语义编码特征获取所述资源对象简化后的标题。
[0011]在其中一个实施例中,所述基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征,包括:
[0012]将多个图像块特征输入到训练好的图像编码网络;所述图像编码网络中包括多个具有不同模块参数的特征提取模块;
[0013]由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,并将所述配图特征作为多个图像块特征输入到所述图像编码网络中的下一特征提取模块,以触发将所述图像编码网络中的下一特征提取模块作为当前的特征提
取模块,返回执行所述获取输入的多个图像块特征各自的自注意力权重的步骤,直到所述图像编码网络中的最后一个特征提取模块输出对应的图像块特征;
[0014]基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重,获取表征所述配图语义的配图编码特征。
[0015]在其中一个实施例中,所述由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,包括:
[0016]基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
[0017]基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重;
[0018]基于所述各图像块特征的自注意力权重和所述多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。
[0019]在其中一个实施例中,所述获取表征所述原始标题语义的标题编码特征,包括:
[0020]对所述原始标题进行分词处理,并获取所述原始标题中各个分词对应的分词特征;
[0021]基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征;每个分词的自注意力权重为基于所述分词与所述原始标题中的其他分词的关联度确定的权重。
[0022]在其中一个实施例中,所述基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征,包括:
[0023]将多个分词特征输入到训练好的文本处理网络,所述编码器中包括多个具有不同模块参数的特征提取模块;
[0024]由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,并将所述标题特征作为多个分词特征输入到所述编码器中的下一特征提取模块,以触发将所述编码器中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个分词特征各自的自注意力权重的步骤,直到所述编码器中的最后一个特征提取模块输出对应的分词特征;
[0025]基于所述编码器中各特征提取模块输出的标题特征和所述编码器中各特征提取模块的模块权重,获取表征所述原始标题语义的标题编码特征。
[0026]在其中一个实施例中,所述由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,包括:
[0027]基于当前的特征提取模块对应的第二变换矩阵对输入的多个分词特征进行变换处理,得到输入的多个分词特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
[0028]基于所述多个分词特征对应的查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重;
[0029]基于各分词特征的自注意力权重和所述多个分词特征对应的值特征矩阵,获取所
述编码器当前的特征提取模块确定的标题特征。
[0030]在其中一个实施例中,所述文本处理网络还包括解码器,所述根据所述语义编码特征获取所述资源对象简化后的标题,包括:
[0031]将所述语义编码特征输入到所述训练好的文本处理网络的解码器,由所述解码器获取所述语义编码特征对应的解码结果;
[0032]基于所述解码结果得到所述资源对象简化后的标题。
[0033]在其中一个实施例中,在所述获取资源对象待简化的原始标题和所述资源对象的配图之前,还包括:
[0034]获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征,以及,获取训练配图编码特征;所述训练配图编码特征用于表征所述训练资源对象的配图对应的语义;
[0035]将多个训练分词特征输入到预训练的文本处理网络,由所述预训练的文本处理网络中的编码器对所述多个训练分词特征进行编码,得到表征所述原始训练标题语义的训练标题编码特征;
[0036]对所述训练配图编码特征和所述训练标题编码特征进行融合,并将融合后的编码特征输入到所述预训练的文本处理网络的解码器,由所述解码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标题简化方法,其特征在于,包括:获取资源对象待简化的原始标题和所述资源对象的配图;对所述配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;获取表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;根据所述语义编码特征获取所述资源对象简化后的标题。2.根据权利要求1所述的方法,其特征在于,所述基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征,包括:将多个图像块特征输入到训练好的图像编码网络;所述图像编码网络中包括多个具有不同模块参数的特征提取模块;由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,并将所述配图特征作为多个图像块特征输入到所述图像编码网络中的下一特征提取模块,以触发将所述图像编码网络中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个图像块特征各自的自注意力权重的步骤,直到所述图像编码网络中的最后一个特征提取模块输出对应的图像块特征;基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重,获取表征所述配图语义的配图编码特征。3.根据权利要求2所述的方法,其特征在于,所述由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,包括:基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重;基于所述各图像块特征的自注意力权重和所述多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。4.根据权利要求1所述的方法,其特征在于,所述获取表征所述原始标题语义的标题编码特征,包括:对所述原始标题进行分词处理,并获取所述原始标题中各个分词对应的分词特征;基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征;每个分词的自注意力权重为基于所述分词与所述原始标题中的其他分词的关联度确定的权重。5.根据权利要求4所述的方法,其特征在于,所述基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征,包括:将多个分词特征输入到训练好的文本处理网络的编码器,所述编码器中包括多个具有
不同模块参数的特征提取模块;由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,并将所述标题特征作为多个分词特征输入到所述编码器中的下一特征提取模块,以触发将所述编码器中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个...

【专利技术属性】
技术研发人员:白雪王子琦
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1