改进的文本特征词汇提取方法、系统、介质、设备及终端技术方案

技术编号:36433809 阅读:28 留言:0更新日期:2023-01-20 22:46
本发明专利技术属于语义网络技术领域,公开了改进的文本特征词汇提取方法、系统、介质、设备及终端,所述改进的文本特征词汇提取方法包括:利用分词技术对文本进行分词处理;与停用词表匹配,对文本词汇集合进行去停用词处理;调查统计得出词汇位置权重值;调查统计得到词汇词性权重值;找到文本的核心词汇c(w1),利用RE(c

【技术实现步骤摘要】
改进的文本特征词汇提取方法、系统、介质、设备及终端


[0001]本专利技术属于语义网络
,尤其涉及一种改进的文本特征词汇提取方法、系统、介质、设备及终端。

技术介绍

[0002]文本特征指的是最能代表文本主旨的词汇集合,文本特征不仅可以很好的概括文本主要内容和主旨,而且可以降低文本处理的复杂程度。前常用的文本特征提取方法,包括词频

反文档频率方法、信息增益等方法。词频

反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF

IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。上述两种文本特征提取方法没有文本集合或没有事先分好类别,仅仅给出一个文本,那么将无法提取这个文本的特征。另外,传统方法没有综合词位置和词性权重两大因素,即计算结果的精度不高。为了满足上述需求,本专利技术提供一种改进的文本特征词汇提取方法。
[0003]通过上述分析,现有技术存在的问题及缺陷为:
[0004](1)现有的词频

反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF

IDF的精度并不是很高。
[0005](2)现有的信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。
[0006](3)现有的文本特征提取方法没有文本集合或没有事先分好类别,仅仅给出一个文本,那么将无法提取这个文本的特征。
[0007](4)传统的文本特征提取方法没有综合词位置和词性权重两大因素,即计算结果的精度不高。

技术实现思路

[0008]为克服相关技术中存在的问题,本专利技术公开实施例提供了一种改进的文本特征词汇提取方法、系统、介质、设备及终端。所述技术方案如下:
[0009]本专利技术是这样实现的,一种改进的文本特征词汇提取方法,所述改进的文本特征词汇提取方法包括:
[0010]利用分词技术对文本进行分词处理;与停用词表匹配,对文本词汇集合进行去停用词处理;调查统计得出词汇位置权重值;调查统计得到词汇词性权重值;找到文本的核心词汇c(w1),利用RE(c
i
,c(w1))找到后m

1位特征词汇。
[0011]在一个实施例中,所述改进的文本特征词汇提取方法包括以下步骤:
[0012]步骤一,利用中文分词技术对文本进行分词处理;
[0013]步骤二,根据词汇在文本中的位置得到系列词汇位置权重值(α1,α2,

,α
n
);
[0014]步骤三,根据词汇在文本中的词性得到系列词汇词性权重值β1、β2、β3、β4;
[0015]步骤四,综合所述位置与词性,根据词汇在文本中信息量,得到词汇的权重贡献公
式RE(c
i
,c(w1)),提取第一位c(w1)与RE(c
i
,c(w1))值更大的前m位,得所述文本的特征词汇向量。
[0016]在一个实施例中,所述步骤一中的利用中文分词技术对文本进行分词处理包括:
[0017](1)根据《分词词典》找到待分词句子中与词典中匹配的词,将待分词的汉字串进行完整扫描,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,则分割出单字作为词;直到汉字串为空。
[0018](2)依据概率统计学,将待分词句子拆分为网状结构,得到n个可能组合的句子结构,将所述结构每条顺序节点依次规定为SM1M2M3M4M5E。
[0019](3)基于信息论方法,给所述网状结构每条边赋予一定的权值,计算过程如下:
[0020]根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为n
i
,n条路径词的个数集合为(n1,n2,

,n
n
)。
[0021]得min()=min(n1,n2,

,n
n
);
[0022]在所述最少路径中,求解每条相邻路径的权重大小。
[0023]在统计语料库中,计算每个词的信息量X(C
i
);在当前文本中计算每个词的信息量Y(C
i
);综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),求解路径相邻词的共现信息量X(C
i
,C
i+1
),如下式所示:
[0024][0025]式中,n(C
i
)1为C
i
在文本中的次数,n为文本语料库中关键词的总数,m为文本数量。
[0026][0027]式中,n(C
i
)1为C
i
在文本中的次数,N(C
i
)为当前文本中关键词的总数,t为含词C
i
的文本数,N为统计语料库中文本总数。
[0028]若信息量X(C
i
)越大,则词C
i
在文本语料库中出现的越频繁,则词C
i
在当前文本的贡献值越低,若信息量Y(C
i
)越大,则词C
i
在当前文本中出现的越频繁,则词C
i
在当前文本的贡献值越高,得综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),如下式所示:
[0029][0030]同理计算X(C
i
,C
i+1
)文本语料库中词(C
i
,C
i+1
)的共现信息量;计算Y(C
i
,C
i+1
)在当前文本中相邻词(C
i
,C
i+1
)共现的文本信息量;再求解路径相邻词的共现信息量F(C
i
,C
i+1
),计算过程如下:
[0031][0032]式中,n(C
i
,C
i+1
)1为在文本中词(C
i
,C
i+1
)的共现次数,m为文本数量,N(c,c)为文本语料库中共现词总数。
[0033][0034]式中,R(C
i
,C
i+1
)为C
i
在文本中的次数,N(C
i
,C
i+1
)为当前文本中共现词的总数,r为含共现词的文本数,N为统计语料库中文本总数。
[0035]若信息量X(C
i
,C
i+1
)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进的文本特征词汇提取方法,其特征在于,所述改进的文本特征词汇提取方法包括:利用分词技术对文本进行分词处理;与停用词表匹配,对文本词汇集合进行去停用词处理;调查统计得出词汇位置权重值;调查统计得到词汇词性权重值;找到文本的核心词汇c(w1),利用RE(c
i
,c(w1))找到后m

1位特征词汇。2.如权利要求1所述的改进的文本特征词汇提取方法,其特征在于,所述改进的文本特征词汇提取方法包括以下步骤:步骤一,利用中文分词技术对文本进行分词处理;步骤二,根据词汇在文本中的位置得到系列词汇位置权重值(α1,α2,

,α
n
);步骤三,根据词汇在文本中的词性得到系列词汇词性权重值β1、β2、β3、β4;步骤四,综合所述位置与词性,根据词汇在文本中信息量,得到词汇的权重贡献公式RE(c
i
,c(w1)),提取第一位c(w1)与RE(c
i
,c(w1))值更大的前m位,得所述文本的特征词汇向量。3.如权利要求2所述的改进的文本特征词汇提取方法,其特征在于,所述步骤一中的利用中文分词技术对文本进行分词处理包括:(1)根据《分词词典》找到待分词句子中与词典中匹配的词,将待分词的汉字串进行完整扫描,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,则分割出单字作为词;直到汉字串为空;(2)依据概率统计学,将待分词句子拆分为网状结构,得到n个可能组合的句子结构,将所述结构每条顺序节点依次规定为SM1M2M3M4M5E;(3)基于信息论方法,给所述网状结构每条边赋予一定的权值,计算过程如下:根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为n
i
,n条路径词的个数集合为(n1,n2,

,n
n
);得min()=min(n1,n2,

,n
n
);在所述最少路径中,求解每条相邻路径的权重大小;在统计语料库中,计算每个词的信息量X(C
i
);在当前文本中计算每个词的信息量Y(C
i
);综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),求解路径相邻词的共现信息量X(C
i
,C
i+1
),如下式所示:式中,n(C
i
)1为C
i
在文本中的次数,n为文本语料库中关键词的总数,m为文本数量;式中,n(C
i
)1为C
i
在文本中的次数,N(C
i
)为当前文本中关键词的总数,t为含词C
i
的文本数,N为统计语料库中文本总数;若信息量X(C
i
)越大,则词C
i
在文本语料库中出现的越频繁,则词C
i
在当前文本的贡献
值越低,若信息量Y(C
i
)越大,则词C
i
在当前文本中出现的越频繁,则词C
i
在当前文本的贡献值越高,得综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),如下式所示:同理计算X(C
i
,C
i+1
)文本语料库中词(C
i
,C
i+1
)的共现信息量;计算Y(C
i
,C
i+1
)在当前文本中相邻词(C
i
,C
i+1
)共现的文本信息量;再求解路径相邻词的共现信息量F(C
i
,C
i+1
),计算过程如下:式中,n(C
i
,C
i+1
)1为在文本中词(C
i
,C
i+1
)的共现次数,m为文本数量,N(c,c)为文本语料库中共现词总数;式中,R(C
i
,C
i+1
)为C
i
在文本中的次数,N(C
i
,C
i+1
)为当前文本中共现词的总数,r为含共现词的文本数,N为统计语料库中文本总数;若信息量X(C
i
,C
i+1
)越大,则词(C
i
,C
i+1
)在文本语料库中出现的越频繁,则词(C
i
,C
i+1
)在当前文本的贡献值越低,若信息量Y(C
i
,C
i+1
)越大,则词(C
i
,C
i+1
)在当前文本中出现的越频繁,则词(C
i
,C
i+1
)在当...

【专利技术属性】
技术研发人员:石珺金平艳李志鹏杨阳朝廖勇张杰
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1