【技术实现步骤摘要】
一种WNLP文本溯源模型
本专利技术涉及文本溯源
,尤其是涉及一种WNLP文本溯源模型。
技术介绍
文本溯源其目的就是检测学术文本是否复制其他文本内容,主要对其文本进行检测,查询文本内容与主旨是否与现有文本内容重复。现在文本溯源方法,通过多种相似度算法,计算被查询文本与现有文本库中所记载的所有文本内容是否相似,通过大量的计算,进而得出查询文本是否抄袭。现有技术有这样不足;通过直接在大量的文本库中,直接对原文本进行相似度计算,其计算量太大,进而使计算时间较长。
技术实现思路
本专利技术针对现有技术中存在的技术问题,提供一种WNLP文本溯源模型。本专利技术解决上述技术问题的技术方案如下:一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;根据所述文本主旨选择对应的所属领域文本类;根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。优选地,上述的一种WNLP文本溯源模型,其中通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。优选地,上述的一种WNLP文本溯源模型,其中通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数 ...
【技术保护点】
1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;/n根据所述文本主旨选择对应的所属领域文本类;/n根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;/n利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;/n从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。/n
【技术特征摘要】
1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。
2.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过Rocchio算法将所述文本库的...
【专利技术属性】
技术研发人员:胡峰稳,邹殷凡,刘一兵,张振华,
申请(专利权)人:武汉创想外码科技有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。