【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种文本处理方法、装置、设备以及介质。
技术介绍
1、在长文本内容理解场景中,由于长文本内容过长,比如长文本为影视剧本时,影视剧本少则几千场次多则几万场次,每个场次可包括几十到几千字数不等,人工阅读难度大,给影视剧本的审核、理解带来了困难。
2、目前,可以采用ai(artificial intelligence,人工智能)进行自动化剧本剧情理解,常规方法可以是采用训练的剧本摘要提取模型,对影视剧本中的每一个场次进行摘要提取,生成每一个场次的摘要,有助于影视审核人员快速理解剧情,评估该影视剧本的价值。其中,上述剧本摘要提取模型的训练需要收集影视剧摘要数据,利用这些收集的影视剧摘要数据,对目前的开源语言模型进行剧本摘要生成训练,最终得到剧本摘要生成模型。然而,由于收集到的影视剧摘要数据的数量有限(高质量摘要数据的标注成本过高,无法提供大量的影视剧摘要数据),利用这些数据训练的剧本摘要生成模型容易出现过拟合,在文本语言变化下产生泛化性过低的问题,降低了剧本摘要生成模型的摘要生成质量。
【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取第i次迭代的参考模型和待训练模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本,包括:
4.根据权利要求3所述的方法,其特征在于,第i个迭代的待训练模型中的特征提取组件包括N个注意力子组件,N为正整数;
5.根据权利要求4所述的方法,其特征在于,所述根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组
...【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取第i次迭代的参考模型和待训练模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述通过第i次迭代的待训练模型,对第i次迭代的文本训练集中的训练样本所包含的原始文本进行摘要提取处理,得到样本预测文本,包括:
4.根据权利要求3所述的方法,其特征在于,第i个迭代的待训练模型中的特征提取组件包括n个注意力子组件,n为正整数;
5.根据权利要求4所述的方法,其特征在于,所述根据第t个注意力子组件中的自注意力掩码层,对第t个注意力子组件的输入特征进行注意力掩码处理,得到注意力掩码特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述参考预测文本、所述样本预测文本、所述正摘要文本和所述负摘要文本,对第i次迭代的待训练模型的网络参数进行修正,得到第i次迭代的摘要生成模型,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一预测概率和所述第三预测概率之间的第一对数概率,以及所述第二预测概率和所述第四预测概率之间的第二...
【专利技术属性】
技术研发人员:郭卉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。