System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及自然语言处理,尤其是涉及一种用户生成内容的后处理方法、装置、设备及存储介质。
技术介绍
1、随着用户生成内容(user generated content,ugc)模式的兴起,越来越多的用户自己生产原创内容。如何避免用户生成内容出现同质化的表述,保证输出文本的规范化,逐渐成为创作过程中的制约因素。因此,需要对用户生成内容进行后处理。
2、目前,现有的ugc更侧重于文本生成过程,对于改写生成后的语句一般也只关注输出结果的通顺度与流畅度;而对输出文本的质量、文本的改写度及用户的创作场景等缺乏相应的处理机制,从而影响了用户生成内容的可读性和内容丰富性。
技术实现思路
1、本说明书实施例的目的在于提供一种用户生成内容的后处理方法、装置、设备及存储介质,以提高用户生成内容的可读性和内容丰富性。
2、为达到上述目的,一方面,本说明书实施例提供了一种用户生成内容的后处理方法,包括:
3、基于预训练的roformer-sim模型将待处理语料生成为第一文本;
4、将所述第一文本预处理为第二文本;
5、基于字符掩码的升噪方式将所述第二文本变换为第三文本;
6、基于所述roformer-sim模型将所述第三文本改写为第四文本;
7、控制所述变换及所述改写的循环,直至获得满足不同的文本长度及文本差异度的多个目标版本。
8、本说明书实施例的用户生成内容的后处理方法中,将所述第一文本预处理为第二文本,包
9、利用jieba分词器将所述第一文本进行分词处理,获得分词序列;
10、计算所述分词序列中每个词在目标领域的领域词典中出现的概率值;
11、根据所述分词序列中其概率值小于概率阈值的词形成错别字集合;
12、对于所述错别字集合中的每个错别字,匹配其在所述目标领域对应的所有替换词,以作为该错别字的替换词候选集合;
13、根据所述替换词候选集合对所述分词序列进行遍历替换,并计算各次替换所形成的新分词序列的困惑度;
14、将困惑度最小者对应的新分词序列作为目标分词序列,并判断所述目标分词序列中是否包含指定敏感词库中的敏感词;
15、当所述目标分词序列中不包含指定敏感词库中的敏感词时,将所述目标分词序列作为第二文本;
16、当所述目标分词序列中包含指定敏感词库中的敏感词时,对所述目标分词序列进行脱敏处理,并将脱敏处理后的目标分词序列作为第二文本。
17、本说明书实施例的用户生成内容的后处理方法中,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:
18、按照掩码位置控制策略确定当前次掩码的掩码位置,并按照掩码数量控制策略确定当前次掩码的掩码数量;
19、在当前次掩码的掩码位置,根据当前次掩码的掩码数量将所述第二文本进行掩码,以获得第三文本。
20、本说明书实施例的用户生成内容的后处理方法中,所述掩码位置控制策略包括:
21、每次随机选择掩码位置。
22、本说明书实施例的用户生成内容的后处理方法中,所述掩码数量控制策略包括:
23、根据m=m0+(k-1)δm确定当前次掩码的掩码数量;其中,m为当前次掩码的掩码数量,且c为第二文本中的字符总数,a为预设常数且0<a<1,m0为初始掩码数量,k为当前次掩码的次数序号,且k=1,…,n,n为次数上限,δm为增量常数。
24、本说明书实施例的用户生成内容的后处理方法中,所述掩码位置控制策略包括:
25、每次按照指定遍历顺序中的顺位选择掩码位置。
26、本说明书实施例的用户生成内容的后处理方法中,所述掩码数量阶梯式控制策略,包括:
27、根据当前次掩码的掩码序号,从掩码序号与掩码数量的映射关系表中,匹配所述当前次掩码的掩码数量。
28、本说明书实施例的用户生成内容的后处理方法中,所述文本差异度根据以下方式确定:
29、计算所述第四文本的文本向量与所述第二文本的文本向量的相似度;
30、根据所述相似度确定所述第四文本与所述第二文本的文本差异度。
31、本说明书实施例的用户生成内容的后处理方法中,所述满足不同的文本长度及文本差异度的多个目标版本,包括:
32、满足第一文本长度和第一文本差异度的第一目标版本;以及,
33、满足第二文本长度和第二文本差异度的第二目标版本;
34、其中,所述第一文本长度小于所述第二文本长度,且所述第一文本差异度小于所述第二文本差异度。
35、另一方面,本说明书实施例还提供了一种用户生成内容的后处理装置,包括:
36、文本生成模块,用于基于预训练的roformer-sim模型将待处理语料生成为第一文本;
37、预处理模块,用于将所述第一文本预处理为第二文本;
38、文本变换模块,用于基于字符掩码的升噪方式将所述第二文本变换为第三文本;
39、文本改写模块,用于基于所述roformer-sim模型将所述第三文本改写为第四文本;
40、循环控制模块,用于控制所述变换及所述改写的循环,直至获得满足不同的文本长度及文本差异度的多个目标版本。
41、另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
42、另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
43、另一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
44、由以上本说明书实施例提供的技术方案可见,本说明书实施例中可以基于预训练的roformer-sim模型将待处理语料生成为用户生成内容,以作为待后处理的对象;并对用户生成内容进行预处理,以提高其可读性;在此基础上,基于字符掩码的升噪方式对预处理后用户生成内容进行掩码变换,并利用roformer-sim模型对掩码后的用户生成内容进行填充式预测,从而实现对掩码后的用户生成内容的改写;通过控制变换及改写的循环,最终可以获得满足不同的文本长度及文本差异度的多个目标版本(例如标准版、丰富版等),从而提高了用户生成内容的内容丰富性。
本文档来自技高网...【技术保护点】
1.一种用户生成内容的后处理方法,其特征在于,包括:
2.如权利要求1所述的用户生成内容的后处理方法,其特征在于,将所述第一文本预处理为第二文本,包括:
3.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:
4.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:
5.如权利要求4所述的用户生成内容的后处理方法,其特征在于,所述掩码数量控制策略包括:
6.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:
7.如权利要求6所述的用户生成内容的后处理方法,其特征在于,所述掩码数量阶梯式控制策略,包括:
8.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述文本差异度根据以下方式确定:
9.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述满足不同的文本长度及文本差异度的多个目标版本,包括:
10.一种用户生成内容的后处理装置,
11.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-9任意一项所述方法的指令。
...【技术特征摘要】
1.一种用户生成内容的后处理方法,其特征在于,包括:
2.如权利要求1所述的用户生成内容的后处理方法,其特征在于,将所述第一文本预处理为第二文本,包括:
3.如权利要求1所述的用户生成内容的后处理方法,其特征在于,所述基于字符掩码的升噪方式将所述第二文本变换为第三文本,包括:
4.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:
5.如权利要求4所述的用户生成内容的后处理方法,其特征在于,所述掩码数量控制策略包括:
6.如权利要求3所述的用户生成内容的后处理方法,其特征在于,所述掩码位置控制策略包括:
7.如权利要求6所述的用户生成内容的后处理方法,其特征在于,所述掩码数量阶梯式控制策略,包括:
8.如权利要求1所述的用户生成内容的后处理方...
【专利技术属性】
技术研发人员:甘竹红,方宇洁,郑晓菊,刘天嘉,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。