一种文本模式识别方法及系统技术方案

技术编号：18398469 阅读：19 留言：0更新日期：2018-07-08 19:20

本发明专利技术公开了一种文本模式识别方法，包括：获取文本文件的长度；根据文本文件的长度，将文本文件抽象成一个主网络模型及若干子网络模型；其中，主网络模型及若干网络模型中均含有一个基点；通过二分法算法简化主网络模型及若干子网络模型；根据简化后的主网络模型，获取主网络模型对应的文本特征向量；根据简化后的每个子网络模块，获取每个子网络模型对应的文本特征向量。此外，本发明专利技术还公开了一种文本模式识别系统。本发明专利技术根据文本文件的长度，构造一个主网络模型及相应的若干子网络模型，从而可以全面的保存文本的原始特征信息；此外，本发明专利技术可以从多个特征向量来分析文本的相似性，还可以对文本的部分进行相似性比较。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本模式识别方法及系统
本专利技术涉及文本文件处理
，尤其涉及一种文本模式识别方法及系统。
技术介绍
随着网络的发展，如何从大量的文本中快速获取有用的信息成为信息
和模式识别
的重要研究课题之一。在实现文本模式识别技术方案时，需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法，通常采用计算两两关键词之间的距离来构造有向加权网络模型，并通过加权处理来简化有向加权网络模型，最后得到简化后的网络模型的矩阵，并提出文本的特征向量。但是，这种方法虽然可以构造一个模型，但构造模型过程复杂繁琐，计算量大，并且会导致大量的文本特征丢失，因此也会影响后面的文本相似性的比较和分类的正确性。此外，现有技术中一般是构造一个模型，而对于较大的文本文件，也就是很长的文本文件，如果仅构造一个模型，势必会丢失很多的原始文本的特征信息。而且，若文本文件仅一个模型，那么在做文件相似度对比的时候，对比的准确度大打折扣。因此，如何快速简单实现文本模式识别，更有效保存原始文本的特征信息，成为亟待解决的问题。
技术实现思路
为了解决上述技术问题，本专利技术提供一种文本模式识别方法及系统，具体的，技术方案如下：本专利技术公开了一种文本模式识别方法，包括：S100获取文本文件的长度；S200根据所述文本文件的长度，将所述文本文件抽象成一个主网络模型及若干子网络模型；其中，所述主网络模型及若干网络模型中均含有一个基点；S300通过二分法算法简化所述主网络模型及若干子网络模型；S400根据简化后的主网络模型，获取所述主网络模型对应的文本特征向量；S500根据简化后的...

【技术保护点】
1.一种文本模式识别方法，其特征在于，包括：S100获取文本文件的长度；S200根据所述文本文件的长度，将所述文本文件抽象成一个主网络模型及若干子网络模型；其中，所述主网络模型及若干网络模型中均含有一个基点；S300通过二分法算法简化所述主网络模型及若干子网络模型；S400根据简化后的主网络模型，获取所述主网络模型对应的文本特征向量；S500根据简化后的每个子网络模块，获取每个子网络模型对应的文本特征向量。

【技术特征摘要】
1.一种文本模式识别方法，其特征在于，包括：S100获取文本文件的长度；S200根据所述文本文件的长度，将所述文本文件抽象成一个主网络模型及若干子网络模型；其中，所述主网络模型及若干网络模型中均含有一个基点；S300通过二分法算法简化所述主网络模型及若干子网络模型；S400根据简化后的主网络模型，获取所述主网络模型对应的文本特征向量；S500根据简化后的每个子网络模块，获取每个子网络模型对应的文本特征向量。2.根据权利要求1所述的一种文本模式识别方法，其特征在于，所述步骤S200包括：S210根据预设的第一规则，将所述本文文件的预设位置作为主基点；S220基于所述主基点，构造所述文本文件对应的主星形有向加权图；S230根据所述文本文件的长度，将所述文本文件划分为若干子文本；其中，每一子文本的文本长度不大于预设的参考文本长度；S240基于预设的第二规则，在每一子文本中的预设位置设置一子基点；S250基于每一子文本的子基点，构造每一子文本对应的子星形有向加权图。3.根据权利要求2所述的一种文本模式识别方法，其特征在于，所述步骤S220包括：S221扫描所述文本文件中的关键词，获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置；S222根据获取的关键词在所述文本文件中出现的次数和位置，将所述文本文件映射为主星形有向加权图，其中，所述主星形有向加权图的中心节点为所述主基点，图中的每个节点代表一个关键词，图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离；所述步骤S250包括：S251扫描所述子文本中的关键词，获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置；S252根据获取的关键词在所述子文本中出现的次数和位置，将所述子文本映射为子星形有向加权图，其中，所述子星形有向加权图的中心节点为所述子基点，图中的每个节点代表一个关键词，图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离。4.根据权利要求2所述的一种文本模式识别方法，其特征在于，所述步骤S210包括：S211基于二分法算法，根据所述所述文本文件的长度，将文本文件的二分之一的位置作为主基点；所述步骤S240包括：S241获取每一子文本的长度；S242基于二分法算法，根据所述子文本的长度，将所述子文本的二分之一的位置作为所述子文本的子基点。5.根据权利要求3所述的一种文本模式识别方法，其特征在于，所述步骤S300包括：S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值，并将各有向边的权值按照从小到大的顺序排列，得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合；S320根据二分法算法，选取所述权值集合中位置处于中间位置的权值作为中间权值，并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值，求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值；S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列，获得一新的权值集合；S340判断所述新的权值集合中的权值数量是否...

【专利技术属性】
技术研发人员：汪成林，
申请(专利权)人：上海康斐信息技术有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人