一种基于同义词分析的科技项目申报书的相似度检测方法技术

技术编号:16128728 阅读:79 留言:0更新日期:2017-09-01 20:48
本发明专利技术公开了一种基于同义词分析的科技项目申报书的相似度检测方法,本发明专利技术结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF‑IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。

Similarity detection method for scientific and technical project declaration based on synonym analysis

The invention discloses a technology project based on the analysis of synonym declaration similarity detection method, the invention combines synonym analysis and vector model to calculate the similarity between the science and technology of the project application through the analysis of the synonym dictionary of synonyms analysis, establish a synonym dictionary according to the particularity of science and technology projects; the format of the declaration, on science and technology project book block processing text. Then the segmentation algorithm is used to analyze and process the text block. In the technology project declaration project link, through Natural Language Processing, establishment of thesaurus, the word segmentation technology application in science and technology projects, the full text of paragraphs, sentences of word processing, the results of the analysis process establish feature weight vector, through the text analysis of synonyms and TF IDF model analysis, the establishment of characteristic the weight vector space, solves the problem of vector space model cannot deal with semantic, improves the accuracy of similarity degree Chinese text detection.

【技术实现步骤摘要】
一种基于同义词分析的科技项目申报书的相似度检测方法
本专利技术属于自然语言处理领域,主要是用于科技项目申报书的相似度检测。
技术介绍
近年来,随着中央对于科研项目投入了大量的经费和财力支持,国内的科技事业也在蓬勃发展,与此同时产生了科技项目申报书的抄袭和重复申报等问题,严重阻碍了科技事业的健康发展。本专利技术针对科技项目申报书的抄袭和重复申报现象专利技术了一种中文文本相似度的检测方法,能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。文本相似性的检测在上世纪70年代首次被提出,相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展,有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法;又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型:向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系,这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果,但是在处理中文文本相似性上却无法得到尽如人意的效果。
技术实现思路
本专利技术针对目前的研究现状,针对科技项目申报书的抄袭和重复情况,提出了一种基于同义词分析的科技项目申报书相似度检测方法。本专利技术结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF-IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。本专利技术方法的具体步骤是:步骤一:输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包含了对识别文本内容意义不大,但是出现频率很高的停用词条,如“我们”、“的”、“了”等。步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树。该字典树是一种树形结构,其根节点为空、每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;其中同义词分析方法,具体步骤如下:步骤1:遍历中文基础词典,任取其中一个词条wk。步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号。步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号。步骤:4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号。步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对某篇科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:按此方法对所有科技项目申报书进行预处理。步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示。步骤五:通过公式:计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条。步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量公式中的m表示特征向量中元素的数量。特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:其中,Frequency(wk)为wk在PDi,j中出现的次数;步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:其中和为文本块对应的词条wk的特征权值向量;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量。步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。本专利技术所提供的基于同义词分析的科技项目申报书的相似度检测方法由一系列功能模块组成,它们包括:中文基础词典的同义词分析模块,科技项目申报书预处理和分词模块,停用词统计推荐模块,建立特征权值向量模块,相似度计算模块。中文基础词典的同义词分析模块:中文基础词典涵盖了常用词条以及专业性词条。在分词过程中,要结合中文基础词典和分词算法将中文文本分解成一组合理有效的词条。通常的中文分词算法都是没有考虑到语义和同义词。所以本方法采用BP神经网络模型对中文基础词典进行分析,找出该词典中的所有同义词。科技项目申报书预处理和分词模块:对科技项目申报书进行文本提取。提取出文本以后,将文本进行文本分块处理。剔除无意义格式和符号,然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块。利用分词算法对处理过的文本块进行分词处理并将分词结果进行停用词过滤处理。停用词统计推荐模块:当科技项目申报书分词结果足够大时,可以对这些分词结果进行停用词推荐处理,首先计算每一个词条的IDF值,如果IDF值小于某个预先设定的阈值,则将其视为新的停用词,并将其加入停用词词典组成新的停用词词典。然后基于新停用词对分词结果再次进行停用词过滤。建立特征权值向量模块:利用TF-IDF模型统计出每篇科技项目申报书的各个文本块的词条词频和IDF值,并将词条词频和IDF值的乘积作为特征项建立起特征权值向量。相似度计算模块:提取出任意两篇科技项目申报书对应的文本块特征权值向量,计算该两个特征权值向量空间之间的余弦值从而得出两篇科技项目申报书的整体相似度。对于任一科技项目申报书,选择与其整体相似度最大的科技项目申报书,作为它的查重结果本文档来自技高网...
一种基于同义词分析的科技项目申报书的相似度检测方法

【技术保护点】
一种基于同义词分析的科技项目申报书的相似度检测方法,其特征在于包括如下步骤:步骤一:输入中文基础词典和中文停用词典;步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树;该字典树是一种树形结构,其根节点为空、每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;其中同义词分析方法,具体步骤如下:步骤1:遍历中文基础词典,任取其中一个词条wk;步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;步骤:4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号;步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:...

【技术特征摘要】
1.一种基于同义词分析的科技项目申报书的相似度检测方法,其特征在于包括如下步骤:步骤一:输入中文基础词典和中文停用词典;步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树;该字典树是一种树形结构,其根节点为空、每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;其中同义词分析方法,具体步骤如下:步骤1:遍历中文基础词典,任取其中一个词条wk;步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;步骤:4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号;步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:按此方法对所有科技项目申报书进行预处理;步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示;步骤五:通过公式:

【专利技术属性】
技术研发人员:严伟吕跃华沈凯杨威杨朔
申请(专利权)人:浙江省科技信息研究院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1