【技术实现步骤摘要】
一种对文本进行同义修改、确定文本创作者的方法
本说明书实施例涉及信息
,尤其涉及一种对文本进行同义修改、确定文本创作者的方法。
技术介绍
对于文本的创作者而言,如何有效保护其版权,是至关重要的课题。为了防止创作者的文本被抄袭,通常采取的思路是,在文本的字里行间加入若干干扰字符作为创作者标记。抄袭者如果不知道文本中的哪些字符是干扰字符,则即便对文本的表述进行调整(俗称洗稿),洗稿后的文本也往往会保留创作者标记。然而,上述这种向文本中加入干扰字符的方式往往会影响文本的可读性,容易给读者造成一定的阅读理解障碍。
技术实现思路
为了解决现有的向文本中加入干扰字符的方式存在的降低文本可读性的问题,本说明书实施例提供一种对文本进行同义修改、确定文本创作者的方法,技术方案如下:根据本说明书实施例的第1方面,提供一种对文本进行同义修改的方法,包括:获取待修改文本,并提取所述待修改文本的关键词集合;针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;针对每个关键词,若该关键词不属于所述命中词集合,则将所述待修改文本中的该关键词替 ...
【技术保护点】
1.一种对文本进行同义修改的方法,包括:/n获取待修改文本,并提取所述待修改文本的关键词集合;/n针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;/n针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;/n获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位N
【技术特征摘要】
1.一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;
针对每个关键词,若该关键词不属于所述命中词集合,则将所述待修改文本中的该关键词替换成与该关键词同义的命中词。
2.如权利要求1所述的方法,根据第一排序规则,将该备选词集合中的词进行排序,包括:
若所述待修改文本为汉字文本,则以该备选词集合中每个词的首字为基准,按照拼音首字母由前到后的顺序,将该备选词集合中的词进行排序。
3.如权利要求1所述的方法,根据第二排序规则,将各备选词集合进行排序,包括:
若所述待修改文本为汉字文本,则以每个备选词集合中第一个词的首字为基准,按照拼音首字母由前到后的顺序,将各备选词集合进行排序。
4.如权利要求1所述的方法,所述方法还包括:
将修改后的文本提交至区块链进行存证。
5.一种确定文本创作者的方法,包括:
获取待确定文本,并提取所述待确定文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
针对第i个备选词集合,确定该备选词集合中关键词的序位Ni;i=(1,2,…,S),S为数字编号位数;
确定数字编号;其中,所述数字编号的第i位数字为Ni;
将确定的数字编号对应的用户认定为所述待确定文本的创作者。
6.一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
从所述待修改文本中确定出关键段落集合;所述关键段落集合包含的关键词的数量大于指定数量;
针对每个关键段落,执行以下步骤:
针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;
针对该关键段落中的每个关键词,若该关键词不属于所述命中词集合,则将该关键段落中的该关键词替换成与该关键词同义的命中词。
7.如权利要求6所述的方法,针对每个关键段落,还执行以下步骤:
根据所述数字编号与预设计算规则,计算得到校验数字P;
将第S+1个备选词集合中的第P个词添加到命中词集合。
8.一种确定文本创作者的方法,包括:
获取待确定文本,并提取所述待确定文本的关键词集合;
从所述待确定文本中确定出包含的关键词的数量大于指定数量的段落,得到关键段落集合;
针对每个关键段落,执行以下步骤:
针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
确定数字编号;其中,所述数字编号的第i位数字为Ni;i=(1,2,…,S),S为数字编号位数;
在针对每个关键段落执行步骤完毕后,根据基于每个关键段落确定的数字编号,确定所述待确定文本的创作者。
9.如权利要求8所述的方法,根据基于每个关键段落确定的数字编号,确定所述待确定文本的创作者,具体包括:
针对每个关键段落,根据确定的数字编号与预设计算规则,计算得到校验数字Q;
判断第S+1个备选词集合中的第Q个词是否为该关键段落中的关键词;
若是,则将确定的数字编号加入到该关键段落对应的编号集合;
若否,则对确定的数字编号进行修正,得到至少一个修正后的数字编号并加入到该关键段落对应的编号集合;针对修正后的每个数字编号,基于该数字编号进行重新计算得到的Q满足:第S+1个备选词集合中的第Q个词为该关键段落中的关键词;
根据各关键段落分别对应的编号集合,将出现频次最高的数字编号对应的用户确定为所述待确定文本的创作者。
10.一种对文本进行同义修改的装置,包括:
获取模块,获取...
【专利技术属性】
技术研发人员:黄凯明,杨磊,潘覃,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。