一种WNLP文本溯源模型制造技术

技术编号：24353570 阅读：66 留言：0更新日期：2020-06-03 02:05

本发明专利技术涉及一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；根据所述文本主旨选择对应的所属领域文本类；再根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；在利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本；通过对文本库进行分类，选择从对应领域的文本进行检测，然后抽选出与文本内容具有一定相似性的文本，这样有序逐层减小筛选文件数量，使对原文本进行相似度检测的时候，不需要对整个文本库的文本进行扫描筛选，缩小扫选范围，减少计算量，提高原文本相似度检测速度，进而快速判断原文本内容是否源于其他文本内容。

A wnlp text traceability model

全部详细技术资料下载

【技术实现步骤摘要】
一种WNLP文本溯源模型
本专利技术涉及文本溯源
，尤其是涉及一种WNLP文本溯源模型。
技术介绍
文本溯源其目的就是检测学术文本是否复制其他文本内容，主要对其文本进行检测，查询文本内容与主旨是否与现有文本内容重复。现在文本溯源方法，通过多种相似度算法，计算被查询文本与现有文本库中所记载的所有文本内容是否相似，通过大量的计算，进而得出查询文本是否抄袭。现有技术有这样不足；通过直接在大量的文本库中，直接对原文本进行相似度计算，其计算量太大，进而使计算时间较长。
技术实现思路
本专利技术针对现有技术中存在的技术问题，提供一种WNLP文本溯源模型。本专利技术解决上述技术问题的技术方案如下：一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；根据所述文本主旨选择对应的所属领域文本类；根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；利用相似度算法通过所述文本部分内容计算出原...

【技术保护点】
1.一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，其特征在于：根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；/n根据所述文本主旨选择对应的所属领域文本类；/n根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；/n利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本；/n从再次筛选中的文本中，在利用相似度算法，计算原文章和多数文本中相似度数值，进而测得能否查询出文本的出处。/n

【技术特征摘要】
1.一种WNLP文本溯源模型，包括文本主旨、文本部分内容和文本库，其特征在于：根据所述文本库所有文本涉及领域，对所述文本库内所属文本进行分类；
根据所述文本主旨选择对应的所属领域文本类；
根据所述文本主旨从所属领域文本类中筛选出对应的多数文本；
利用相似度算法通过所述文本部分内容计算出原文章与现有文本的相似的文本；
从再次筛选中的文本中，在利用相似度算法，计算原文章和多数文本中相似度数值，进而测得能否查询出文本的出处。

2.根据权利要求1所述的一种WNLP文本溯源模型，其特征在于：通过Rocchio算法将所述文本库的...

【专利技术属性】
技术研发人员：胡峰稳，邹殷凡，刘一兵，张振华，
申请(专利权)人：武汉创想外码科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人