一种文本模式识别方法及系统技术方案

技术编号:18398469 阅读:19 留言:0更新日期:2018-07-08 19:20
本发明专利技术公开了一种文本模式识别方法,包括:获取文本文件的长度;根据文本文件的长度,将文本文件抽象成一个主网络模型及若干子网络模型;其中,主网络模型及若干网络模型中均含有一个基点;通过二分法算法简化主网络模型及若干子网络模型;根据简化后的主网络模型,获取主网络模型对应的文本特征向量;根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。此外,本发明专利技术还公开了一种文本模式识别系统。本发明专利技术根据文本文件的长度,构造一个主网络模型及相应的若干子网络模型,从而可以全面的保存文本的原始特征信息;此外,本发明专利技术可以从多个特征向量来分析文本的相似性,还可以对文本的部分进行相似性比较。

【技术实现步骤摘要】
一种文本模式识别方法及系统
本专利技术涉及文本文件处理
,尤其涉及一种文本模式识别方法及系统。
技术介绍
随着网络的发展,如何从大量的文本中快速获取有用的信息成为信息
和模式识别
的重要研究课题之一。在实现文本模式识别技术方案时,需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法,通常采用计算两两关键词之间的距离来构造有向加权网络模型,并通过加权处理来简化有向加权网络模型,最后得到简化后的网络模型的矩阵,并提出文本的特征向量。但是,这种方法虽然可以构造一个模型,但构造模型过程复杂繁琐,计算量大,并且会导致大量的文本特征丢失,因此也会影响后面的文本相似性的比较和分类的正确性。此外,现有技术中一般是构造一个模型,而对于较大的文本文件,也就是很长的文本文件,如果仅构造一个模型,势必会丢失很多的原始文本的特征信息。而且,若文本文件仅一个模型,那么在做文件相似度对比的时候,对比的准确度大打折扣。因此,如何快速简单实现文本模式识别,更有效保存原始文本的特征信息,成为亟待解决的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供一种文本模式识别方法及系统,具体的,技术方案如下:本专利技术公开了一种文本模式识别方法,包括:S100获取文本文件的长度;S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;S300通过二分法算法简化所述主网络模型及若干子网络模型;S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。优选地,所述步骤S200包括:S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;S220基于所述主基点,构造所述文本文件对应的主星形有向加权图;S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;S250基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图。优选地,所述步骤S220包括:S221扫描所述文本文件中的关键词,获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置;S222根据获取的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图,其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离;所述步骤S250包括:S251扫描所述子文本中的关键词,获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置;S252根据获取的关键词在所述子文本中出现的次数和位置,将所述子文本映射为子星形有向加权图,其中,所述子星形有向加权图的中心节点为所述子基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离。优选地,所述步骤S210包括:S211基于二分法算法,根据所述所述文本文件的长度,将文本文件的二分之一的位置作为主基点;所述步骤S240包括:S241获取每一子文本的长度;S242基于二分法算法,根据所述子文本的长度,将所述子文本的二分之一的位置作为所述子文本的子基点。优选地,所述步骤S300包括:S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合;S320根据二分法算法,选取所述权值集合中位置处于中间位置的权值作为中间权值,并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值,求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值;S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,获得一新的权值集合;S340判断所述新的权值集合中的权值数量是否大于2,若是,返回步骤S320;否则,进入步骤S350;S350求取所述新的权值集合中剩余的两个权值的平均值作为所述关键词对应的唯一权值;S360根据各关键词对应的唯一权值,获取到简化后的主星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的主星形有向加权图的有向边权值;S370采用步骤S310-S350同样的方法,获取到简化后的每个子星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的子星形有向加权图的有向边权值。优选地,所述步骤S400包括:S410根据简化后的主星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为主文本的特征向量。所述步骤S500包括:S510根据简化后的子星形有向加权图的属性和记录的关键词出现次数,将所述子文本映射为子文本的特征向量。优选地,所述特征向量为:R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,R(D)表示特征向量;size表示所述简化后的星形有向加权图中所有关键词的个数;in-degree表示所述简化后的星形有向加权图中基点的入度节点;in-weight表示所述简化后的星形有向加权图中基点的入度节点对应的各权值;out-degree表示所述简化后的星形有向加权图中基点的出度节点;out-weight表示所述简化后的星形有向加权图中基点的出度节点对应的各权值;f表示所述简化后的星形有向加权图中的各节点出现的次数。优选地,本专利技术所述的一种文本模式识别方法还包括:S600将所述文本文件中每个网络模型对应的文本特征向量与另一文本文件中每个网络对应的文本特征向量进行比较,获取这两个文本文件的相似性。优选地,所述步骤S600包括:S610将两个对比文本文件的主网络模型对应的文本特征向量进行相似度比较;S620判断所述两个对比文本文件的主网络模型对应的文本特征向量的相似度是否小于第一相似度预设值;若是,进入步骤S630;S630将两个对比文本文件的任意子网络模型对应的文本特征向量进行相似度比较;S640判断所述两个对比文本文件的任意子网络模型对应的文本特征向量的相似度是否大于第二相似度预设值,若是,进入步骤S650;S650判断所述两个对比文本文件相似。另一方面,本专利技术还公开了一种文本模式识别系统,该系统可采用本专利技术所述的文本模式识别方法,具体的,本专利技术的文本模式识别系统包括:长度获取模块,用于获取文本文件的长度;网络模型构造模块,用于根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;网络模型简化模块,用于通过二分法算法简化所述主网络模型及若干子网络模型;特征向量获取模块,用于根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;及根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。本专利技术至少具备以下一项有益技术效果:(1)本专利技术根据文本文件的长度,将文本文件抽象成一个主网络模型及若干本文档来自技高网...

【技术保护点】
1.一种文本模式识别方法,其特征在于,包括:S100获取文本文件的长度;S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;S300通过二分法算法简化所述主网络模型及若干子网络模型;S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。

【技术特征摘要】
1.一种文本模式识别方法,其特征在于,包括:S100获取文本文件的长度;S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;S300通过二分法算法简化所述主网络模型及若干子网络模型;S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。2.根据权利要求1所述的一种文本模式识别方法,其特征在于,所述步骤S200包括:S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;S220基于所述主基点,构造所述文本文件对应的主星形有向加权图;S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;S250基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图。3.根据权利要求2所述的一种文本模式识别方法,其特征在于,所述步骤S220包括:S221扫描所述文本文件中的关键词,获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置;S222根据获取的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图,其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离;所述步骤S250包括:S251扫描所述子文本中的关键词,获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置;S252根据获取的关键词在所述子文本中出现的次数和位置,将所述子文本映射为子星形有向加权图,其中,所述子星形有向加权图的中心节点为所述子基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离。4.根据权利要求2所述的一种文本模式识别方法,其特征在于,所述步骤S210包括:S211基于二分法算法,根据所述所述文本文件的长度,将文本文件的二分之一的位置作为主基点;所述步骤S240包括:S241获取每一子文本的长度;S242基于二分法算法,根据所述子文本的长度,将所述子文本的二分之一的位置作为所述子文本的子基点。5.根据权利要求3所述的一种文本模式识别方法,其特征在于,所述步骤S300包括:S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合;S320根据二分法算法,选取所述权值集合中位置处于中间位置的权值作为中间权值,并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值,求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值;S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,获得一新的权值集合;S340判断所述新的权值集合中的权值数量是否...

【专利技术属性】
技术研发人员:汪成林
申请(专利权)人:上海康斐信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1