System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用户生成内容的后处理方法、装置、设备及存储介质制造方法及图纸_技高网

用户生成内容的后处理方法、装置、设备及存储介质制造方法及图纸

技术编号:40354538 阅读:9 留言:0更新日期:2024-02-09 14:39
本说明书涉及自然语言处理技术领域,提供了一种用户生成内容的后处理方法、装置、设备及存储介质,该方法包括:基于预训练的Roformer‑sim模型将待处理语料生成为第一文本;将所述第一文本预处理为第二文本;基于字符掩码的升噪方式将所述第二文本变换为第三文本;基于所述Roformer‑sim模型将所述第三文本改写为第四文本;控制所述变换及所述改写的循环,直至获得满足不同的文本长度及文本差异度的多个目标版本。通过本说明书实施例可以提高用户生成内容的可读性和内容丰富性。

【技术实现步骤摘要】

本说明书涉及自然语言处理,尤其是涉及一种用户生成内容的后处理方法、装置、设备及存储介质


技术介绍

1、随着用户生成内容(user generated content,ugc)模式的兴起,越来越多的用户自己生产原创内容。如何避免用户生成内容出现同质化的表述,保证输出文本的规范化,逐渐成为创作过程中的制约因素。因此,需要对用户生成内容进行后处理。

2、目前,现有的ugc更侧重于文本生成过程,对于改写生成后的语句一般也只关注输出结果的通顺度与流畅度;而对输出文本的质量、文本的改写度及用户的创作场景等缺乏相应的处理机制,从而影响了用户生成内容的可读性和内容丰富性。


技术实现思路

1、本说明书实施例的目的在于提供一种用户生成内容的后处理方法、装置、设备及存储介质,以提高用户生成内容的可读性和内容丰富性。

2、为达到上述目的,一方面,本说明书实施例提供了一种用户生成内容的后处理方法,包括:

3、基于预训练的roformer-sim模型将待处理语料生成为第一文本;

4、将所述第一文本预处理为第二文本;

5、基于字符掩码的升噪方式将所述第二文本变换为第三文本;

6、基于所述roformer-sim模型将所述第三文本改写为第四文本;

7、控制所述变换及所述改写的循环,直至获得满足不同的文本长度及文本差异度的多个目标版本。

8、本说明书实施例的用户生成内容的后处理方法中,将所述第一文本预处理为第二文本,包括:

9、利用jieba分词器将所述第一文本进行分词处理,获得分词序列;

10、计算所述分词序列中每个词在目标领域的领域词典中出现的概率值;

11、根据所述分词序列中其概率值小于概率阈值的词形成错别字集合;

12、对于所述错别字集合中的每个错别字,匹配其在所述目标领域对应的所有替换词,以作为该错别字的替换词候选集合;

13、根据所述替换词候选集合对所述分词序列进行遍历替换,并计算各次替换所形成的新分词序列的困惑度;

14、将困惑度最小者对应的新分词序列作为目标分词序列,并判断所述目标分词序列中是否包含指定敏感词库中的敏感词;

15、当所述目标分词序列中不包含指定敏感词库中的敏感词时,将所述目标分词序列作为第二文本;

16、当所述目标分词序列中包含指定敏感词库中的敏感词时,对所述目标分词序列进行脱敏处理,并将脱敏处理后的目标分词序列作为第二文本。

17、本说明书实施例的用户生成内容的后处理方法中,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:

18、按照掩码位置控制策略确定当前次掩码的掩码位置,并按照掩码数量控制策略确定当前次掩码的掩码数量;

19、在当前次掩码的掩码位置,根据当前次掩码的掩码数量将所述第二文本进行掩码,以获得第三文本。

20、本说明书实施例的用户生成内容的后处理方法中,所述掩码位置控制策略包括:

21、每次随机选择掩码位置。

22、本说明书实施例的用户生成内容的后处理方法中,所述掩码数量控制策略包括:

23、根据m=m0+(k-1)δm确定当前次掩码的掩码数量;其中,m为当前次掩码的掩码数量,且c为第二文本中的字符总数,a为预设常数且0<a<1,m0为初始掩码数量,k为当前次掩码的次数序号,且k=1,…,n,n为次数上限,δm为增量常数。

24、本说明书实施例的用户生成内容的后处理方法中,所述掩码位置控制策略包括:

25、每次按照指定遍历顺序中的顺位选择掩码位置。

26、本说明书实施例的用户生成内容的后处理方法中,所述掩码数量阶梯式控制策略,包括:

27、根据当前次掩码的掩码序号,从掩码序号与掩码数量的映射关系表中,匹配所述当前次掩码的掩码数量。

28、本说明书实施例的用户生成内容的后处理方法中,所述文本差异度根据以下方式确定:

29、计算所述第四文本的文本向量与所述第二文本的文本向量的相似度;

30、根据所述相似度确定所述第四文本与所述第二文本的文本差异度。

31、本说明书实施例的用户生成内容的后处理方法中,所述满足不同的文本长度及文本差异度的多个目标版本,包括:

32、满足第一文本长度和第一文本差异度的第一目标版本;以及,

33、满足第二文本长度和第二文本差异度的第二目标版本;

34、其中,所述第一文本长度小于所述第二文本长度,且所述第一文本差异度小于所述第二文本差异度。

35、另一方面,本说明书实施例还提供了一种用户生成内容的后处理装置,包括:

36、文本生成模块,用于基于预训练的roformer-sim模型将待处理语料生成为第一文本;

37、预处理模块,用于将所述第一文本预处理为第二文本;

38、文本变换模块,用于基于字符掩码的升噪方式将所述第二文本变换为第三文本;

39、文本改写模块,用于基于所述roformer-sim模型将所述第三文本改写为第四文本;

40、循环控制模块,用于控制所述变换及所述改写的循环,直至获得满足不同的文本长度及文本差异度的多个目标版本。

41、另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。

42、另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。

43、另一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。

44、由以上本说明书实施例提供的技术方案可见,本说明书实施例中可以基于预训练的roformer-sim模型将待处理语料生成为用户生成内容,以作为待后处理的对象;并对用户生成内容进行预处理,以提高其可读性;在此基础上,基于字符掩码的升噪方式对预处理后用户生成内容进行掩码变换,并利用roformer-sim模型对掩码后的用户生成内容进行填充式预测,从而实现对掩码后的用户生成内容的改写;通过控制变换及改写的循环,最终可以获得满足不同的文本长度及文本差异度的多个目标版本(例如标准版、丰富版等),从而提高了用户生成内容的内容丰富性。

本文档来自技高网...

【技术保护点】

1.一种用户生成内容的后处理方法,其特征在于,包括:

2.如权利要求1所述的用户生成内容的后处理方法,其特征在于,将所述第一文本预处理为第二文本,包括:

3.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:

4.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:

5.如权利要求4所述的用户生成内容的后处理方法,其特征在于,所述掩码数量控制策略包括:

6.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:

7.如权利要求6所述的用户生成内容的后处理方法,其特征在于,所述掩码数量阶梯式控制策略,包括:

8.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述文本差异度根据以下方式确定:

9.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述满足不同的文本长度及文本差异度的多个目标版本,包括:

10.一种用户生成内容的后处理装置,其特征在于,包括:

11.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。

12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。

13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。

...

【技术特征摘要】

1.一种用户生成内容的后处理方法,其特征在于,包括:

2.如权利要求1所述的用户生成内容的后处理方法,其特征在于,将所述第一文本预处理为第二文本,包括:

3.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:

4.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:

5.如权利要求4所述的用户生成内容的后处理方法,其特征在于,所述掩码数量控制策略包括:

6.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:

7.如权利要求6所述的用户生成内容的后处理方法,其特征在于,所述掩码数量阶梯式控制策略,包括:

8.如权利要求1所述的用户生成内容的后处理方...

【专利技术属性】
技术研发人员:甘竹红方宇洁郑晓菊刘天嘉
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1