一种WNLP文本溯源模型制造技术

技术编号:24353570 阅读:40 留言:0更新日期:2020-06-03 02:05
本发明专利技术涉及一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;根据所述文本主旨选择对应的所属领域文本类;再根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;在利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。

A wnlp text traceability model

【技术实现步骤摘要】
一种WNLP文本溯源模型
本专利技术涉及文本溯源
,尤其是涉及一种WNLP文本溯源模型。
技术介绍
文本溯源其目的就是检测学术文本是否复制其他文本内容,主要对其文本进行检测,查询文本内容与主旨是否与现有文本内容重复。现在文本溯源方法,通过多种相似度算法,计算被查询文本与现有文本库中所记载的所有文本内容是否相似,通过大量的计算,进而得出查询文本是否抄袭。现有技术有这样不足;通过直接在大量的文本库中,直接对原文本进行相似度计算,其计算量太大,进而使计算时间较长。
技术实现思路
本专利技术针对现有技术中存在的技术问题,提供一种WNLP文本溯源模型。本专利技术解决上述技术问题的技术方案如下:一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;根据所述文本主旨选择对应的所属领域文本类;根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。优选地,上述的一种WNLP文本溯源模型,其中通过Rocchio算法将所述文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。优选地,上述的一种WNLP文本溯源模型,其中通过TF-IDF算法根据所述文本主旨从所属文本中筛选出对应的多数文本。优选地,上述的一种WNLP文本溯源模型,其中根据所述文本部分内容通过TF-IDF算法从所属文本中筛选出与所述文本部分内容相似的文本。优选地,上述的一种WNLP文本溯源模型,其中利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。本专利技术的有益效果是:通过对文本库进行分类,选择从对应领域的文本进行检测,然后抽选出与文本内容具有一定相似性的文本,这样有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。附图说明图1为本专利技术为流程示意图;图2为本专利技术工作原理示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,S10:根据文本库所有文本涉及领域,对文本库内所属文本进行分类;通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本。S20:根据文本主旨选择对应的所属领域文本类;根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类。S30:根据文本主旨从所属领域文本类中筛选出对应的多数文本;通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本。S40:利用相似度算法通过文本部分内容计算出原文章与现有文本的相似的文本;根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本。S50:从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本。首先通过Rocchio算法将文本库的所有文本按照不同领域进行分类处理形成不同的所属领域文本,依据根据文本主旨,在现在分类好的不同的所属领域文本选择对应的所属领域文本类,在通过TF-IDF算法根据文本主旨从所属文本中筛选出对应的多数文本,然后根据文本部分内容通过TF-IDF算法从所属文本中筛选出与文本部分内容相似的文本,最后利用余弦相似性算法计算原文本与诸多相似的文本的相似度,从而通过相似度判断原文章是否出处于其他文本,通过这一系列的操作,有序逐层减小筛选文件数量,使对原文本进行相似度检测的时候,不需要对整个文本库的文本进行扫描筛选,缩小扫选范围,减少计算量,提高原文本相似度检测速度,进而快速判断原文本内容是否源于其他文本内容。以上所述仅为本专利技术的较佳实施例,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;/n根据所述文本主旨选择对应的所属领域文本类;/n根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;/n利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;/n从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。/n

【技术特征摘要】
1.一种WNLP文本溯源模型,包括文本主旨、文本部分内容和文本库,其特征在于:根据所述文本库所有文本涉及领域,对所述文本库内所属文本进行分类;
根据所述文本主旨选择对应的所属领域文本类;
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本;
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本;
从再次筛选中的文本中,在利用相似度算法,计算原文章和多数文本中相似度数值,进而测得能否查询出文本的出处。


2.根据权利要求1所述的一种WNLP文本溯源模型,其特征在于:通过Rocchio算法将所述文本库的...

【专利技术属性】
技术研发人员:胡峰稳邹殷凡刘一兵张振华
申请(专利权)人:武汉创想外码科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1