一种对文本进行同义修改、确定文本创作者的方法技术

技术编号:24797612 阅读:34 留言:0更新日期:2020-07-07 20:45
公开了一种对文本进行同义修改、确定文本创作者的方法。针对创作者创作的原始文本,根据创作者的数字编号与固定替换规则对该原始文本中的至少部分关键词进行替换。如此,针对洗稿者制作的抄袭文本,可以根据该抄袭文本中的关键词与固定替换规则还原出数字编号,证明该抄袭文本对应的原始文本的创作者身份。

【技术实现步骤摘要】
一种对文本进行同义修改、确定文本创作者的方法
本说明书实施例涉及信息
,尤其涉及一种对文本进行同义修改、确定文本创作者的方法。
技术介绍
对于文本的创作者而言,如何有效保护其版权,是至关重要的课题。为了防止创作者的文本被抄袭,通常采取的思路是,在文本的字里行间加入若干干扰字符作为创作者标记。抄袭者如果不知道文本中的哪些字符是干扰字符,则即便对文本的表述进行调整(俗称洗稿),洗稿后的文本也往往会保留创作者标记。然而,上述这种向文本中加入干扰字符的方式往往会影响文本的可读性,容易给读者造成一定的阅读理解障碍。
技术实现思路
为了解决现有的向文本中加入干扰字符的方式存在的降低文本可读性的问题,本说明书实施例提供一种对文本进行同义修改、确定文本创作者的方法,技术方案如下:根据本说明书实施例的第1方面,提供一种对文本进行同义修改的方法,包括:获取待修改文本,并提取所述待修改文本的关键词集合;针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;针对每个关键词,若该关键词不属于所述命中词集合,则将所述待修改文本中的该关键词替换成与该关键词同义的命中词。根据本说明书实施例的第2方面,提供一种确定文本创作者的方法,包括:获取待确定文本,并提取所述待确定文本的关键词集合;针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;针对第i个备选词集合,确定该备选词集合中关键词的序位Ni;i=(1,2,…,S),S为数字编号位数;确定数字编号;其中,所述数字编号的第i位数字为Ni;将确定的数字编号对应的用户认定为所述待确定文本的创作者。根据本说明书实施例的第3方面,提供另一种对文本进行同义修改的方法,包括:获取待修改文本,并提取所述待修改文本的关键词集合;从所述待修改文本中确定出关键段落集合;所述关键段落集合包含的关键词的数量大于指定数量;针对每个关键段落,执行以下步骤:针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;针对该关键段落中的每个关键词,若该关键词不属于所述命中词集合,则将该关键段落中的该关键词替换成与该关键词同义的命中词。根据本说明书实施例的第4方面,提供另一种确定文本创作者的方法,包括:获取待确定文本,并提取所述待确定文本的关键词集合;从所述待确定文本中确定出包含的关键词的数量大于指定数量的段落,得到关键段落集合;针对每个关键段落,执行以下步骤:针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;确定数字编号;其中,所述数字编号的第i位数字为Ni;i=(1,2,…,S),S为数字编号位数;在针对每个关键段落执行步骤完毕后,根据基于每个关键段落确定的数字编号,确定所述待确定文本的创作者。本说明书实施例所提供的技术方案,针对创作者创作的原始文本,根据创作者的数字编号(起到身份标识作用)与固定替换规则对该原始文本中的至少部分关键词进行替换,得到修改文本并公开。如此,针对洗稿者根据公开的修改文本制作的抄袭文本,可以根据该抄袭文本中的关键词与固定替换规则还原出数字编号,证明该抄袭文本对应的原始文本的创作者身份。通过本说明书实施例,对关键词进行同义词替换的方式不会影响文本的可读性,同时,采用固定替换规则可以使得在分析抄袭文本时,无需与原始文本进行比对就可以还原出创作者的数字编号,更为便利。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书实施例提供的一种对文本进行同义修改的方法的流程示意图;图2是本说明书实施例提供的一种确定文本创作者的方法的流程示意图;图3是本说明书实施例提供的另一种对文本进行同义词修改的方法的流程示意图;图4是本说明书实施例提供的另一种确定文本创作者的方法的流程示意图;图5是本说明书实施例提供的一种对文本进行同义修改的装置的结构示意图;图6是本说明书实施例提供的一种确定文本创作者的装置的结构示意图;图7是本说明书实施例提供的一种对文本进行同义修改的装置的结构示意图;图8是本说明书实施例提供的一种确定文本创作者的装置的结构示意图;图9是用于配置本说明书实施例方法的一种设备的结构示意图。具体实施方式一般而言,对创作者的原始文本进行同义修改(即对原始文本中的一些词进行同义替换),得到修改文本并公开,可以在一定程度防止创作者的文本被抄袭。抄袭者在抄袭公开修改文本时,只要得到的抄袭文本中没有丢失那些替换的同义词,就可以以此为线索证明抄袭文本侵犯了原始文本的版权。然而,上述这种方式也存在一定弊端。具体而言,一方面,如果抄袭者在理解修改文本的主旨之后,对修改文本进行了大幅度修改(如删除大段内容、增加大段内容、对表述修改较大),则得到的抄袭文本中很容易丢失替换的同义词,导致无法证明抄袭文本侵犯了原始文本的版权;另一方面,当发现抄袭文本时,需要将抄袭文本与原始文本进行比对,才能发现抄袭文本中的哪些词是替换过的,这比较麻烦。为此,在本说明书实施例中,一方面,仅对原始文本中的部分或全部关键词进行同义词替换得到修改文本,如此,由于原始文本的关键词往往与原始文本的主旨紧密相关,因此即便抄袭者对修改文本进行大幅度修本文档来自技高网...

【技术保护点】
1.一种对文本进行同义修改的方法,包括:/n获取待修改文本,并提取所述待修改文本的关键词集合;/n针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;/n针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;/n获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位N

【技术特征摘要】
1.一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;
针对每个关键词,若该关键词不属于所述命中词集合,则将所述待修改文本中的该关键词替换成与该关键词同义的命中词。


2.如权利要求1所述的方法,根据第一排序规则,将该备选词集合中的词进行排序,包括:
若所述待修改文本为汉字文本,则以该备选词集合中每个词的首字为基准,按照拼音首字母由前到后的顺序,将该备选词集合中的词进行排序。


3.如权利要求1所述的方法,根据第二排序规则,将各备选词集合进行排序,包括:
若所述待修改文本为汉字文本,则以每个备选词集合中第一个词的首字为基准,按照拼音首字母由前到后的顺序,将各备选词集合进行排序。


4.如权利要求1所述的方法,所述方法还包括:
将修改后的文本提交至区块链进行存证。


5.一种确定文本创作者的方法,包括:
获取待确定文本,并提取所述待确定文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
针对第i个备选词集合,确定该备选词集合中关键词的序位Ni;i=(1,2,…,S),S为数字编号位数;
确定数字编号;其中,所述数字编号的第i位数字为Ni;
将确定的数字编号对应的用户认定为所述待确定文本的创作者。


6.一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
从所述待修改文本中确定出关键段落集合;所述关键段落集合包含的关键词的数量大于指定数量;
针对每个关键段落,执行以下步骤:
针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;
针对该关键段落中的每个关键词,若该关键词不属于所述命中词集合,则将该关键段落中的该关键词替换成与该关键词同义的命中词。


7.如权利要求6所述的方法,针对每个关键段落,还执行以下步骤:
根据所述数字编号与预设计算规则,计算得到校验数字P;
将第S+1个备选词集合中的第P个词添加到命中词集合。


8.一种确定文本创作者的方法,包括:
获取待确定文本,并提取所述待确定文本的关键词集合;
从所述待确定文本中确定出包含的关键词的数量大于指定数量的段落,得到关键段落集合;
针对每个关键段落,执行以下步骤:
针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
确定数字编号;其中,所述数字编号的第i位数字为Ni;i=(1,2,…,S),S为数字编号位数;
在针对每个关键段落执行步骤完毕后,根据基于每个关键段落确定的数字编号,确定所述待确定文本的创作者。


9.如权利要求8所述的方法,根据基于每个关键段落确定的数字编号,确定所述待确定文本的创作者,具体包括:
针对每个关键段落,根据确定的数字编号与预设计算规则,计算得到校验数字Q;
判断第S+1个备选词集合中的第Q个词是否为该关键段落中的关键词;
若是,则将确定的数字编号加入到该关键段落对应的编号集合;
若否,则对确定的数字编号进行修正,得到至少一个修正后的数字编号并加入到该关键段落对应的编号集合;针对修正后的每个数字编号,基于该数字编号进行重新计算得到的Q满足:第S+1个备选词集合中的第Q个词为该关键段落中的关键词;
根据各关键段落分别对应的编号集合,将出现频次最高的数字编号对应的用户确定为所述待确定文本的创作者。


10.一种对文本进行同义修改的装置,包括:
获取模块,获取...

【专利技术属性】
技术研发人员:黄凯明杨磊潘覃
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1