文本处理模型训练、标题生成方法、装置、设备及介质制造方法及图纸

技术编号:38011159 阅读:10 留言:0更新日期:2023-06-30 10:32
本公开提供了一种文本处理模型训练、标题生成方法、装置、设备及介质,其中,该方法包括:获取多个第一标题文本,并在每个第一标题文本中多次插入掩码片段,得到每次插入掩码片段后的多个第二标题文本;其中,每次在第一标题文本中插入掩码片段的位置不同;第一标题文本的字符数小于或等于预设字符数;基于训练的掩码还原模型对每个第二标题文本进行掩码还原处理,得到将第一标题文本扩展后的第三标题文本;基于多个第一标题文本和每个第一标题文本对应的多个第三标题文本,训练得到用于进行标题缩短处理的文本处理模型;文本处理模型的训练过程以第三标题文本作为输入数据,以第一标题文本作为输出数据。题文本作为输出数据。题文本作为输出数据。

【技术实现步骤摘要】
文本处理模型训练、标题生成方法、装置、设备及介质


[0001]本公开涉及计算机
,具体而言,涉及一种文本处理模型训练、标题生成方法、装置、设备及介质。

技术介绍

[0002]随着电子商务的发展,人们可以通过网上购物来满足日常需求。在网上购物平台中,商户通常会为商品设置对应的商品标题来推荐该商品。然而,在不同的商品展示场景下,可以展示的商品标题的长度并不相同。例如,在商品卡片中展示的商品标题的长度要小于商品详情页中所展示的商品标题的长度,因此,在商品标题较长的情况下,商品卡片中可能会出现商品标题展示不完整的现象,从而影响了用户的浏览体验。
[0003]基于此,存在将长标题文本转换为短标题文本的需求,可以采用模型训练的方式得到能够进行标题文本缩短的模型。在进行模型训练时,需要构造大量的长短标题文本对,也即需要针对大量的长标题文本,进行相关短标题文本的标注,这个过程需要耗费大量的人力成本,并且存在标注结果主观性强,标注质量不佳的问题。

技术实现思路

[0004]本公开实施例至少提供一种文本处理模型训练、标题生成方法、装置、设备及介质。
[0005]第一方面,本公开实施例提供了一种文本处理模型训练方法,该方法包括:获取多个第一标题文本,并在每个所述第一标题文本中多次插入掩码片段,得到每次插入掩码片段后的多个第二标题文本;其中,每次在所述第一标题文本中插入掩码片段的位置不同;所述第一标题文本的字符数小于或等于预设字符数;基于训练的掩码还原模型对每个所述第二标题文本进行掩码还原处理,得到将所述第一标题文本扩展后的第三标题文本;基于所述多个第一标题文本和每个所述第一标题文本对应的多个所述第三标题文本,训练得到用于进行标题缩短处理的文本处理模型;所述文本处理模型的训练过程以所述第三标题文本作为输入数据,以所述第一标题文本作为输出数据。
[0006]一种可选的实施方式中,所述在每个所述第一标题文本中多次插入掩码片段,包括:采用均匀分布采样方式,在每个所述第一标题文本中选择插入位置,插入所述掩码片段。
[0007]一种可选的实施方式中,所述训练的掩码还原模型为根据以下步骤训练得到的:获取多个第四标题文本,并对每个所述第四标题文本进行多次掩码处理,得到多个第五标题文本;其中,所述第四标题文本的字符数大于所述预设字符数;所述第五标题文本的字符数小于或等于所述预设字符数;每次所述掩码处理选择的掩码起始位置和/或掩码字符数不同;基于所述多个第四标题文本和每个所述第四标题文本对应的多个第五标题文本,训练得到掩码还原模型;所述掩码还原模型以所述第五标题文本作为输入数据,以所述第四标题文本作为输出数据。
[0008]一种可选的实施方式中,所述对每个所述第四标题文本进行多次掩码处理,包括:采用均匀分布采样方式,确定每次所述掩码处理的掩码起始位置;和/或,采用泊松分布采样方式,确定每次所述掩码处理的掩码字符数。
[0009]一种可选的实施方式中,所述方法还包括:获取所述第四标题文本中的至少一个文本片段的标注信息;所述基于所述多个第四标题文本和每个所述第四标题文本对应的多个第五标题文本,训练得到掩码还原模型,包括:基于所述多个第四标题文本、每个所述第四标题文本对应的所述标注信息以及所述第五标题文本,训练得到所述掩码还原模型。
[0010]一种可选的实施方式中,所述对每个所述第四标题文本进行多次掩码处理,包括:按照被标注的所述文本片段的整体性原则,对每个所述第四标题文本进行多次掩码处理;其中,所述整体性原则是指:掩码处理后的所述第五标题文本中需要包含被标注的所述文本片段中的全部字符,或者,不包含被标注的所述文本片段中的任何字符。
[0011]一种可选的实施方式中,所述对每个所述第四标题文本进行多次掩码处理,包括:在所述第四标题文本中被标注的文本片段包括多个的情况下,按照高频掩码原则,对所述第四标题文本进行多次掩码处理;其中,所述高频掩码原则是指:在需要对所述第四标题文本中被标注的文本片段进行掩码时,对多个所述文本片段中的目标文本片段进行掩码;其中,所述目标文本片段在各第四标题文本中的出现频率大于所述第四标题文本中的其他文本片段的出现频率。
[0012]一种可选的实施方式中,获取所述标注信息之后,基于所述多个第四标题文本、每个所述第四标题文本对应的所述标注信息以及所述第五标题文本,训练得到所述掩码还原模型之前,所述方法还包括:随机调整被标注的所述文本片段在所述第五标题文本中的位置,得到调整后的第五标题文本;所述调整后的第五标题文本用于与所述第四标题文本、所述第四标题文本对应的所述标注信息一起参与所述掩码还原模型的训练。
[0013]第二方面,本公开实施例提供了一种标题生成方法,包括:获取待处理标题;所述待处理标题的字符数大于预设字符数;采用文本处理模型对所述待处理标题进行缩短处理,得到目标标题;所述文本处理模型为采用上述第一方面中任一所述的文本处理模型训练方法训练得到的。
[0014]第三方面,本公开实施例还提供一种文本处理模型训练装置,包括:掩码模块,用于获取多个第一标题文本,并在每个所述第一标题文本中多次插入掩码片段,得到每次插入掩码片段后的多个第二标题文本;其中,每次在所述第一标题文本中插入掩码片段的位置不同;所述第一标题文本的字符数小于或等于预设字符数;还原模块,用于基于训练的掩码还原模型对每个所述第二标题文本进行掩码还原处理,得到将所述第一标题文本扩展后的第三标题文本;训练模块,用于基于所述多个第一标题文本和每个所述第一标题文本对应的多个所述第三标题文本,训练得到用于进行标题缩短处理的文本处理模型;所述文本处理模型的训练过程以所述第三标题文本作为输入数据,以所述第一标题文本作为输出数据。
[0015]第四方面,本公开实施例还提供一种标题生成装置,包括:获取模块,用于获取待处理标题;所述待处理标题的字符数大于预设字符数;处理模块,用于采用文本处理模型对所述待处理标题进行缩短处理,得到目标标题;所述文本处理模型为采用上述第一方面中任一项所述的文本处理模型训练方法训练得到的。
[0016]第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或者,执行上述第二方面中的步骤。
[0017]第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或者,执行上述第二方面中的步骤。
[0018]通过上述描述可知,可以获取多个第一标题文本(也即短标题文本),并在每个第一标题文本中多次插入掩码片段,得到每次插入掩码片段后的多个第二标题文本。之后,可以基于训练的掩码还原模型对每个第二标题文本进行掩码还原处理,得到将第一标题文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型训练方法,其特征在于,包括:获取多个第一标题文本,并在每个所述第一标题文本中多次插入掩码片段,得到每次插入掩码片段后的多个第二标题文本;其中,每次在所述第一标题文本中插入掩码片段的位置不同;所述第一标题文本的字符数小于或等于预设字符数;基于训练的掩码还原模型对每个所述第二标题文本进行掩码还原处理,得到将所述第一标题文本扩展后的第三标题文本;基于所述多个第一标题文本和每个所述第一标题文本对应的多个所述第三标题文本,训练得到用于进行标题缩短处理的文本处理模型;所述文本处理模型的训练过程以所述第三标题文本作为输入数据,以所述第一标题文本作为输出数据。2.根据权利要求1所述的方法,其特征在于,所述在每个所述第一标题文本中多次插入掩码片段,包括:采用均匀分布采样方式,在每个所述第一标题文本中选择插入位置,插入所述掩码片段。3.根据权利要求1所述的方法,其特征在于,所述训练的掩码还原模型为根据以下步骤训练得到的:获取多个第四标题文本,并对每个所述第四标题文本进行多次掩码处理,得到多个第五标题文本;其中,所述第四标题文本的字符数大于所述预设字符数;所述第五标题文本的字符数小于或等于所述预设字符数;每次所述掩码处理选择的掩码起始位置和/或掩码字符数不同;基于所述多个第四标题文本和每个所述第四标题文本对应的多个第五标题文本,训练得到掩码还原模型;所述掩码还原模型以所述第五标题文本作为输入数据,以所述第四标题文本作为输出数据。4.根据权利要求3所述的方法,其特征在于,所述对每个所述第四标题文本进行多次掩码处理,包括:采用均匀分布采样方式,确定每次所述掩码处理的掩码起始位置;和/或,采用泊松分布采样方式,确定每次所述掩码处理的掩码字符数。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述第四标题文本中的至少一个文本片段的标注信息;所述基于所述多个第四标题文本和每个所述第四标题文本对应的多个第五标题文本,训练得到掩码还原模型,包括:基于所述多个第四标题文本、每个所述第四标题文本对应的所述标注信息以及所述第五标题文本,训练得到所述掩码还原模型。6.根据权利要求5所述的方法,其特征在于,所述对每个所述第四标题文本进行多次掩码处理,包括:按照被标注的所述文本片段的整体性原则,对每个所述第四标题文本进行多次掩码处理;其中,所述整体性原则是指:掩码处理后的所述第五标题文本中需要包含被标注的所述文本片段中的全部字符,或者,不包含被标注的所述文本片段中的任何字符。7.根据权利要求5或6所述的方法,其特征在于,所述对每个所述第四标题文本进行多
次掩码处理,包括:在所述第四标题文本中被标注的文本片段包括多个的情况下,按照高频掩码原则,对所述第...

【专利技术属性】
技术研发人员:成翔陈家泽
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1