内容生成方法、生成式内容检测方法和装置制造方法及图纸

技术编号:38533856 阅读:13 留言:0更新日期:2023-08-19 17:05
本申请公开了内容生成方法和生成式内容检测方法。其中内容生成方法包括:构建多种语言在字形上相同或者相似的字符对应关系;通过内容生成算法生成目标语言的内容;根据所述字符对应关系和内容来源信息,将内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符。采用这种处理方式,使得通过同形字符转换的方式为生成式内容添加生成式内容标识水印,由于水印是字符层面的,对于字母类字符的覆盖面较大,因此可实现仅需要极少的内容量就能有效识别出内容生成方式,并且即使后续对生成式内容进行过编辑操作,仍能有效检测出内容的生成方式,以及有效将算法生成内容与人类创作内容进行隔离,避免对人工知识库造成污染。识库造成污染。识库造成污染。

【技术实现步骤摘要】
内容生成方法、生成式内容检测方法和装置


[0001]本申请涉及人工智能
,具体涉及内容生成方法和装置,生成式内容检测方法和装置,自动问答方法和装置,答题方法和装置,创意生成方法和装置,程序制作方法和装置,以及电子设备。

技术介绍

[0002]文本内容生成模型给人类的工作和生活带来极大便利。在一些场合,需要能够判断出一段内容是模型自动生成的还是由人类创作的。目前,主要是通过提取内容的各项特征(如行文特征等)来判断内容是否来自某一类模型。然而,该方法至少存在如下问题:1)根据行文特征等内容元素进行检测,需要大段的文本内容才能进行有效识别,内容量较少情况下,识别准确率不高;2)鲁棒性较差,在目标内容进行过插入、删除、修改等编辑操作以后,很难给出有效的检测结果;3)不具有内容隔离功能,会导致模型生成内容污染人类知识库。

技术实现思路

[0003]本申请提供内容生成方法,以解决现有技术存在的内容生成方式的识别准确率受内容量限制、对编辑过的生成式内容进行内容生成方式识别的鲁棒性较差的问题。本申请另外提供内容生成装置,生成式内容检测方法和装置,以及电子设备。
[0004]本申请提供一种内容生成方法,包括:
[0005]构建多种语言在字形上相同或者相似的字符对应关系;
[0006]通过内容生成算法生成目标语言的内容;
[0007]根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符。
[0008]可选的,所述内容的来源信息为内容由算法生成;
[0009]所述根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符,包括:
[0010]根据所述字符对应关系和所述内容的来源信息,将所述部分或者全部目标语言字符转换为具有相同或者相似字形的任意一个其它语言字符。
[0011]可选的,所述内容的来源信息为知识产权信息;所述方法还包括:
[0012]根据所述字符对应关系,构建与目标语言字符对应的同形字符与二进制数之间的对应关系;
[0013]将所述知识产权信息转换为水印比特流;
[0014]所述根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符,包括:
[0015]若所述目标语言字符具有同形字符,则根据所述目标语言字符的同形字符数,获取与所述目标语言字符对应的二进制数位数;
[0016]根据所述二进制数位数,从所述水印比特流中读取对应位数的水印比特位;
[0017]根据所述同形字符与二进制数之间的对应关系,获取与所述对应位数的水印比特位对应的目标同形字符;
[0018]若所述目标同形字符为与所述目标语言字符对应的具有相同或者相似字形的其它语言字符,则将所述目标语言字符替换为所述目标同形字符。
[0019]可选的,所述根据所述字符对应关系,构建与目标语言字符对应的同形字符与二进制数之间的对应关系,包括:
[0020]根据所述字符对应关系,获取所述目标语言字符的同形字符数量;
[0021]根据所述同形字符数量,确定二进制数的位数;
[0022]根据所述二进制数的位数,构建所述同形字符与二进制数之间的对应关系。
[0023]可选的,还包括:
[0024]将与所述目标语言的内容对应的同形字符转换后的内容存储到知识库中,所述知识库根据内容检索条件对应的字符编码进行内容检索。
[0025]本申请还提供一种生成式内容检测方法,包括:
[0026]获取目标语言的内容;
[0027]获取多种语言在字形上相同或者相似的字符对应关系;
[0028]根据所述字符对应关系,将所述目标语言的内容中的其它语言字符转换为具有相同或者相似字形的目标语言字符;
[0029]若转换后的多个目标语言字符构成的内容片段具有语义信息,则判定所述目标语言的内容为生成式内容。
[0030]可选的,所述若转换后的多个目标语言字符构成的内容片段具有语义信息,则判定所述目标语言的内容为生成式内容,包括:
[0031]获取同形字符转换的字符数;
[0032]若转换后的多个目标语言字符构成的内容片段具有语义信息、且所述字符数大于第一阈值,则判定所述目标语言的内容为生成式内容。
[0033]可选的,还包括:
[0034]获取目标语言字符的同形字符与二进制数之间的对应关系;
[0035]根据所述同形字符与二进制数之间的对应关系,获取与所述目标语言的内容中的同形字符对应的二进制数;
[0036]将所述同形字符对应的二进制数添加至水印比特流中;
[0037]在完成水印信息提取后,将所述水印比特流转换为知识产权信息。
[0038]本申请还提供一种生成式内容检测方法,包括:
[0039]获取多种语言在字形上相同或者相似的字符对应关系;
[0040]获取目标语言的内容;
[0041]根据所述字符对应关系,将所述目标语言的内容中的其它语言字符转换为具有相同或者相似字形的目标语言字符;
[0042]将所述内容中发生同形字符转换的字符设置为对应第一标志位,将所述内容中未发生同形字符转换的字符设置为对应第二标志位,将所述内容中的非同形字符设置为第三标志位,根据所述字符在所述内容中的位置和所述字符对应的标志位,获取与所述内容对
应的字符标志位串;
[0043]针对所述字符标志位串中的第二标志位片段,若所述第二标志位片段的长度小于第二阈值、且与所述第二标志位片段相邻的标志位片段对应的字符片段具有语义信息,则将所述第二标志位片段和所述相邻的标志位片段对应的字符片段作为生成式内容。
[0044]本申请还提供一种问答方法,包括:
[0045]构建多种语言在字形上相同或者相似的字符对应关系;
[0046]接收客户端发送的对话请求;
[0047]根据所述请求携带的对话信息,通过内容生成算法生成对话内容;
[0048]根据所述字符对应关系,将所述对话内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符;
[0049]将同形字符转换后的对话内容回送至客户端。
[0050]本申请还提供一种答题方法,包括:
[0051]构建多种语言在字形上相同或者相似的字符对应关系;
[0052]接收客户端发送的针对目标题目获取答案的请求;
[0053]通过内容生成算法生成与所述目标题目对应的答案内容;
[0054]根据所述字符对应关系,将所述答案内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符;
[0055]将同形字符转换后的答案内容回送至客户端。
[0056]本申请还提供一种创意生成方法,包括:...

【技术保护点】

【技术特征摘要】
1.一种内容生成方法,其特征在于,包括:构建多种语言在字形上相同或者相似的字符对应关系;通过内容生成算法生成目标语言的内容;根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符。2.根据权利要求1的方法,其特征在于,所述内容的来源信息为内容由算法生成;所述根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符,包括:根据所述字符对应关系和所述内容的来源信息,将所述部分或者全部目标语言字符转换为具有相同或者相似字形的任意一个其它语言字符。3.根据权利要求1的方法,其特征在于,所述内容的来源信息为知识产权信息;所述方法还包括:根据所述字符对应关系,构建与目标语言字符对应的同形字符与二进制数之间的对应关系;将所述知识产权信息转换为水印比特流;所述根据所述字符对应关系和所述内容的来源信息,将所述内容中的部分或者全部目标语言字符转换为具有相同或者相似字形的其它语言字符,包括:若所述目标语言字符具有同形字符,则根据所述目标语言字符的同形字符数,获取与所述目标语言字符对应的二进制数位数;根据所述二进制数位数,从所述水印比特流中读取对应位数的水印比特位;根据所述同形字符与二进制数之间的对应关系,获取与所述对应位数的水印比特位对应的目标同形字符;若所述目标同形字符为与所述目标语言字符对应的具有相同或者相似字形的其它语言字符,则将所述目标语言字符替换为所述目标同形字符。4.根据权利要求3的方法,其特征在于,所述根据所述字符对应关系,构建与目标语言字符对应的同形字符与二进制数之间的对应关系,包括:根据所述字符对应关系,获取所述目标语言字符的同形字符数量;根据所述同形字符数量,确定二进制数的位数;根据所述二进制数的位数,构建所述同形字符与二进制数之间的对应关系。5.根据权利要求1的方法,其特征在于,还包括:将与所述目标语言的内容对应的同形字符转换后的内容存储到知识库中,所述知识库根据内容检索条件对应的字符编码进行内容检索。6.一种生成式内容检测方法,其特征在于,包括:获取目标语言的内容;获取多种语言在字形上相同或者相似的字符对应关系;根据所述字符对应关系,将所述目标语言的内容中的其它语言字符转换为具有相同或者相似字形的目标语言字符;
若转换后的多个目标语言字符构成的内容片段具有语义信息,则判定所述目标语言的内容为生成式内容。7.根据权利要求6的方法,其特征在于,所述若转换后的多个目标语言字符构成的内容片段具有语义信息,则判定所述目标语言的内容为生成式内容,包括:获取同形字符转换的字符数;若转换后的多个目标语言字符构成的内容片段具有语义信息、且所述字符数大于第一阈值,则判定所述目标语言的内容为生成式内容。8.根据权利要求6的方法,其特征在于,还包括:获取目标语言字符的同形...

【专利技术属性】
技术研发人员:孙巍巍杨锐丁健生莫华晓
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1