一种文本模式识别方法及系统技术方案

技术编号:17109840 阅读:42 留言:0更新日期:2018-01-24 22:29
本发明专利技术公开了一种文本模式识别方法,包括以下步骤:根据二分法算法获取文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图;根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量,整个运算过程简单有效,从而便于快速地进行文本分析。

A method and system for text pattern recognition

The invention discloses a text pattern recognition method, which comprises the following steps: according to the dichotomy algorithm to obtain the text files in a preset position as a starting point, record the number of times each keyword in the text file and the emergence of relative to the base position; according to the number and location of the recorded keywords in the text file appeared. The text file is mapped into star weighted digraph; according to the dichotomy algorithm, the star weighted digraph to simplify star weighted digraph; according to the simplified star directed weighted graph and attribute keyword record number, the text file is mapped into the text feature vector. The operation process is simple and effective, which is convenient for fast text analysis.

【技术实现步骤摘要】
一种文本模式识别方法及系统
本专利技术属于文本识别
,特别涉及接入无线网络的文本模式识别方法及系统。
技术介绍
随着网络的发展,如何从大量的文本中快速获取有用的信息成为信息
和模式识别
的重要研究课题之一。在实现文本模式识别技术方案时,需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法,通常采用计算两两关键词之间的距离来构造有向加权网络模型,并通过加权处理来简化有向加权网络模型,最后得到简化后的网络模型的矩阵,并提出文本的特征向量。但是,这种方法的构造模型过程复杂繁琐,计算量大,并且会导致大量的文本特征丢失,因此也会影响后面的文本相似性的比较和分类的正确性。因此,如何快速简单实现文本模式识别,更有效保存原始文本的特征信息,成为亟待解决的问题。
技术实现思路
本专利技术提供的技术方案如下:本专利技术提供了一种文本模式识别方法,包括以下步骤:S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其本文档来自技高网...
一种文本模式识别方法及系统

【技术保护点】
一种文本模式识别方法,其特征在于,包括以下步骤:S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;S3、根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。

【技术特征摘要】
1.一种文本模式识别方法,其特征在于,包括以下步骤:S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;S3、根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。2.如权利要求1所述的文本模式识别方法,其特征在于,步骤S1具体包括:计算所述文本文件的长度;根据所述所述文本文件的长度,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。3.如权利要求2所述的文本模式识别方法,其特征在于,步骤S2具体包括:所述星形有向加权图中,若一关键词在所述文本文件中出现的次数大于1,那么所述关键词对应所述星形有向加权图中的多个节点。4.如权利要求3所述的文本模式识别方法,其特征在于,步骤S2具体还包括:若所述文本文件的关键词集为K=[k1,k2,……,kn],用F=[f1,f2,……,fn]表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,用Wi=[wi1,wi2,…,win]表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi,所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。5.如权利要求4所述的文本模式识别方法,其特征在于,步骤S2具体还包括:若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述基点的距离权值win为负值,且在所述星形有向加权图中加一条由各节点指向所述中心节点的有向边;若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。6.如权利要求5所述的文本模式识别方法,其特征在于,所述步骤S3具体包括:获取所述星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同...

【专利技术属性】
技术研发人员:汪成林
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1