文本处理方法、装置、设备以及介质制造方法及图纸

技术编号:42246847 阅读:47 留言:0更新日期:2024-08-02 13:56
本申请实施例提供了一种文本处理方法、装置、设备以及介质,该方法可应用在文本内容理解场景中,用于提高摘要生成质量。方法包括:获取第i次迭代的参考模型、待训练模型和文本训练集;在第i次迭代中,将文本训练集内的训练样本中的原始文本输入至参考模型进行前向计算,得到参考预测文本;将原始文本输入至待训练模型进行前向计算,得到样本预测文本;根据参考预测文本、样本预测文本、训练样本中的正摘要文本和负摘要文本,修正第i次迭代的待训练模型的参数,得到第i次迭代的摘要生成模型;对样本预测文本进行修正得到样本修正文本,将原始文本、样本预测文本、样本修正文本封装为新增样本,将新增样本添加至第i+1次迭代的文本训练集。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种文本处理方法、装置、设备以及介质


技术介绍

1、在长文本内容理解场景中,由于长文本内容过长,比如长文本为影视剧本时,影视剧本少则几千场次多则几万场次,每个场次可包括几十到几千字数不等,人工阅读难度大,给影视剧本的审核、理解带来了困难。

2、目前,可以采用ai(artificial intelligence,人工智能)进行自动化剧本剧情理解,常规方法可以是采用训练的剧本摘要提取模型,对影视剧本中的每一个场次进行摘要提取,生成每一个场次的摘要,有助于影视审核人员快速理解剧情,评估该影视剧本的价值。其中,上述剧本摘要提取模型的训练需要收集影视剧摘要数据,利用这些收集的影视剧摘要数据,对目前的开源语言模型进行剧本摘要生成训练,最终得到剧本摘要生成模型。然而,由于收集到的影视剧摘要数据的数量有限(高质量摘要数据的标注成本过高,无法提供大量的影视剧摘要数据),利用这些数据训练的剧本摘要生成模型容易出现过拟合,在文本语言变化下产生泛化性过低的问题,降低了剧本摘要生成模型的摘要生成质量。


<p>技术实现思本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第i次迭代的参考模型和待训练模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本,包括:

4.根据权利要求3所述的方法,其特征在于,第i个迭代的待训练模型中的特征提取组件包括N个注意力子组件,N为正整数;

5.根据权利要求4所述的方法,其特征在于,所述根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组件的输入特征进行注意...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第i次迭代的参考模型和待训练模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本,包括:

4.根据权利要求3所述的方法,其特征在于,第i个迭代的待训练模型中的特征提取组件包括n个注意力子组件,n为正整数;

5.根据权利要求4所述的方法,其特征在于,所述根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组件的输入特征进行注意力掩码处理,得到注意力掩码特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述参考预测文本、所述样本预测文本、所述正摘要文本和所述负摘要文本,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的摘要生成模型,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述第一预测概率和所述第三预测概率之间的第一对数概率,以及所述第二预测概率和所述第四预测概率之间的第二...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1