一种基于同义词分析的科技项目申报书的相似度检测方法技术

技术编号：16128728 阅读：79 留言：0更新日期：2017-09-01 20:48

本发明专利技术公开了一种基于同义词分析的科技项目申报书的相似度检测方法，本发明专利技术结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析，建立起同义词词典；针对科技项目申报书格式的特殊性，对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节，通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理，对分析结果进行处理建立起特征权值向量，通过同义词分析和TF‑IDF模型对文本进行分析，建立特征权值向量空间，解决了向量空间模型无法处理语义的缺陷，提高了中文文本相似性度检测的准确性。

Similarity detection method for scientific and technical project declaration based on synonym analysis

The invention discloses a technology project based on the analysis of synonym declaration similarity detection method, the invention combines synonym analysis and vector model to calculate the similarity between the science and technology of the project application through the analysis of the synonym dictionary of synonyms analysis, establish a synonym dictionary according to the particularity of science and technology projects; the format of the declaration, on science and technology project book block processing text. Then the segmentation algorithm is used to analyze and process the text block. In the technology project declaration project link, through Natural Language Processing, establishment of thesaurus, the word segmentation technology application in science and technology projects, the full text of paragraphs, sentences of word processing, the results of the analysis process establish feature weight vector, through the text analysis of synonyms and TF IDF model analysis, the establishment of characteristic the weight vector space, solves the problem of vector space model cannot deal with semantic, improves the accuracy of similarity degree Chinese text detection.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于同义词分析的科技项目申报书的相似度检测方法
本专利技术属于自然语言处理领域，主要是用于科技项目申报书的相似度检测。
技术介绍
近年来，随着中央对于科研项目投入了大量的经费和财力支持，国内的科技事业也在蓬勃发展，与此同时产生了科技项目申报书的抄袭和重复申报等问题，严重阻碍了科技事业的健康发展。本专利技术针对科技项目申报书的抄袭和重复申报现象专利技术了一种中文文本相似度的检测方法，能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。文本相似性的检测在上世纪70年代首次被提出，相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展，有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法；又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型：向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系，这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果，但是在处理中文文本相似性上却无法得到尽如人意的效果。
技术实现思路
本专利技术针对目前的研究现状，针对科技项目申报书的抄袭和重复情况，提出了一种基于同义词分析的科技项目申报书相似度检测方法。本专利技术结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析，建立起同义词词典；针对科技项目申报书格式的特殊...
一种基于同义词分析的科技项目申报书的相似度检测方法

【技术保护点】
一种基于同义词分析的科技项目申报书的相似度检测方法，其特征在于包括如下步骤：步骤一：输入中文基础词典和中文停用词典；步骤二：构建一个BP神经网络模型，将中文基础词典作为神经网络模型的输入层进行训练分析，挖掘出其中的同义词，将属于某个词的所有同义词放置在同一行，从而组成同义词词林T；以中文基础词典为基础建立起字典树；该字典树是一种树形结构，其根节点为空、每个节点对应一个字，通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词；对中文基础词典进行同义词分析；其中同义词分析方法，具体步骤如下：步骤1：遍历中文基础词典，任取其中一个词条wk；步骤2：从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点；然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点；重复以上步骤，直至找到词条wk在字典树中的完整遍历路径，为该路径的最后一个节点分配一个唯一的同义词编号；步骤3：在同义词林T中找到该词条wk的所有同义词，按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径，将这些完整遍历路径的最后一个节点标注为与词条w...

【技术特征摘要】
1.一种基于同义词分析的科技项目申报书的相似度检测方法，其特征在于包括如下步骤：步骤一：输入中文基础词典和中文停用词典；步骤二：构建一个BP神经网络模型，将中文基础词典作为神经网络模型的输入层进行训练分析，挖掘出其中的同义词，将属于某个词的所有同义词放置在同一行，从而组成同义词词林T；以中文基础词典为基础建立起字典树；该字典树是一种树形结构，其根节点为空、每个节点对应一个字，通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词；对中文基础词典进行同义词分析；其中同义词分析方法，具体步骤如下：步骤1：遍历中文基础词典，任取其中一个词条wk；步骤2：从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点；然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点；重复以上步骤，直至找到词条wk在字典树中的完整遍历路径，为该路径的最后一个节点分配一个唯一的同义词编号；步骤3：在同义词林T中找到该词条wk的所有同义词，按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径，将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号；步骤:4：重复步骤1、步骤2、步骤3，直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号；步骤三：提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号；然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块，根据各个文本块的重要性为每个文本块赋予不同权值；对科技项目申报书Di进行文本块划分处理后得到的文本块集，表示如下：按此方法对所有科技项目申报书进行预处理；步骤四：根据字典树对每篇科技项目申报书Di的文本块进行分词处理，去除包含在停用词典中的停用词条，最后得到的每个词条都用其同义词编号表示；步骤五：通过公式：

【专利技术属性】
技术研发人员：严伟，吕跃华，沈凯，杨威，杨朔，
申请(专利权)人：浙江省科技信息研究院，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人