当前位置: 首页 > 专利查询>冷霜专利>正文

一种基于邻近策略的汉语新生关键词自动识别方法技术

技术编号:19593216 阅读:24 留言:0更新日期:2018-11-28 04:49
本发明专利技术公开了一种基于邻近策略的汉语新生关键词自动识别方法,包括:建立关键词的基础词典表和动态汉语语料库;建立关键词的属性向量;根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;判定生词词性并识别为关键词。本发明专利技术能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签,具有识别速度快,效率和准确度高,并具有很好的稳定性。

【技术实现步骤摘要】
一种基于邻近策略的汉语新生关键词自动识别方法
本专利技术属于计算机软件和模式识别领域,具体涉及一种基于邻近策略的汉语新生关键词自动识别方法。
技术介绍
关键词的自动识别在互联网的在线智能搜索、新媒体以及精准营销领域具有非常广泛的应用前景,但目前的关键词识别都是识别词库中已有的关键字,而对于无定义新生词语的关键字识别却需要靠人工处理,这使得海量文本的实时处理效率过于低下。
技术实现思路
为解决上述问题,本专利技术的提供了一种基于邻近策略的汉语新生关键词自动识别方法,能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签。本专利技术解决其问题所采用的技术方案包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。本专利技术的有益效果为:本方法能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签,具有识别速度快,效率和准确度高,并具有很好的稳定性。附图说明图1为一种基于邻近策略的汉语新生关键词自动识别方法整体流程图;图2为为生词关键词自动识别效果评价表。具体实施方式如图1所示,本专利技术所述的基于邻近策略的汉语新生关键词自动识别方法包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库将汉语词典中的非兼类词和兼类词包含属性为名词的词语全部提取到基础词典表,再补充网络关键词,构成本方法所述关键词的基础词典表,作为生词关键词的比对基础。以包含现代汉语语料库和古代汉语语料库等第三代动态流通语料库为基础,构建动态汉语语料库,作为关键词语言环境的判断依据。B.建立关键词的属性向量(1)假设系统扫描到的关键词为Wk,搜索动态语料库中所有可能成为关键词Wk的邻词;(2)将步骤(1)搜索到的邻词按照左邻和右邻归为两类,其中左邻词记为Wli(i>0,且为整数),右邻词记为Wrj(j>0,且为整数);在实际应用中,将会搜索到海量Wk的左右邻词,在海量的基础上,将最不常用的部分邻词忽略不计,并不会对计算结果的精确性产生影响。因此,为实现计算的便捷性和高效性,左右邻词的数量选取相同的N个;(3)分别计算Wli和Wrj出现在Wk的左邻及右邻的概率P(Wli)和P(Wrj),则P(Wl)N×1=[P(Wl1)P(Wl2)…P(WlN)]T,P(Wr)N×1=[P(Wr1)P(Wr2)…P(WrN)]T。(4)利用上述计算结果,将产生一个N×2维向量ArrN×2=[P(Wl)N×1P(Wr)N×1],将向量ArrN×2单位化得,即所要求解的关键词Wk的属性向量。C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度:在步骤B中,Wli和Wrj出现在Wk的左邻及右邻的概率显然满足以下条件:因此,关键词的属性向量是一个概率向量。(1)假设目标关键词和基础关键字的属性向量分别为和根据步骤B中关键词属性向量的算式可得,以上算式简记为(2)分别求出属性向量和所包含信息的信息熵H(x)和H(y),计算如下:(3)在目标关键词x与基础关键词y信息熵的基础上,计算二者属性向量的复合信息熵θH:(4)计算目标关键词与基础关键词的语义相似程度Sim(x,y)=1-θH(x,y)D.判定生词词性并识别为关键词。(1)引入词性分布向量Diss×1来描述目标关键词的词性分布;假设汉语总共的词性类别有s种,本方法用s维的词性分布向量Diss×1来描述一个生词的词性分布,则目标关键词Wt的词性分布向量Dis(Wt)=(ps1,ps2,…,psi…,pss),其中psi表示目标关键词Wt取为第i种词性的概率,由上述可知因此目标关键词Wt的词性分布向量Dis(Wt)是一种概率向量。(2)建立汉语基础词性表;汉语基础词性表的来源有两部分,一部分来自汉语词典,另一部分来自网络词典表。在该表中,可直接查找基础关键词的词性,并且能够找到与目标关键词Wt所有概率分布的邻近基础关键词。(3)依据基础词性表,判定目标关键词Wt的词性,并识别为关键词。在汉语基础词性表中找到Wt的n个相似词W1,W2,…,Wn后,根据步骤A,B,C所述,分别计算W1,W2,…,Wn与目标关键词Wt的相似度,记为Sim(Wt,W1)…Sim(Wt,Wn)。另记相似词W1,W2,…,Wn的词性分布向量分别为Dis(W1)…Dis(Wn),本方法采用加权平均法来计算目标关键词Wt的词性分布向量Dis(Wt),算法如下:综上所述,便可实现目标关键词Wt的相似语义以及词性的自动识别和判定,其效果评价如图2所示。本方法能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签,具有识别速度快,效率和准确度高,并具有很好的稳定性。本文档来自技高网...

【技术保护点】
1.一种基于邻近策略的汉语新生关键词自动识别方法,其特征在于,包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量;C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。

【技术特征摘要】
1.一种基于邻近策略的汉语新生关键词自动识别方法,其特征在于,包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量;C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。2.如权利要求1所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤A的具体实现方式为:将汉语词典中的非兼类词和兼类词包含属性为名词的词语全部提取到基础词典表,再补充网络关键词,构成本方法所述关键词的基础词典表,作为生词关键词的比对基础;以包含现代汉语语料库和古代汉语语料库在内的第三代动态流通语料库为基础,构建动态汉语语料库,作为关键词语言环境的判断依据。3.如权利要求2所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤B“建立关键词的属性向量的具体实现方式为:(1)假设系统扫描到的关键词为Wk,搜索动态语料库中所有可能成为关键词Wk的邻词;(2)将步骤(1)搜索到的邻词按照左邻和右邻归为两类,其中左邻词记为Wli(i>0,且为整数),右邻词记为Wrj(j>0,且为整数),左右邻词的数量选取相同的N个;(3)分别计算Wli和Wrj出现在Wk的左邻及右邻的概率P(Wli)和P(Wrj),则P(Wl)N×1=[P(Wl1)P(Wl2)…P(WlN)]T,P(Wr)N×1=[P(Wr1)P(Wr2)…P(WrN)]T;(4)利用上述计算结果,将产生一个N×2维向量ArrN×2=[P(Wl)N×1P(Wr)N×1],将向量ArrN×2单位化得,即所要求解的关键词Wk的属性向量。4.如权利要求3所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤C的具体实现方式为...

【专利技术属性】
技术研发人员:冷霜黄佳敏李云霞
申请(专利权)人:冷霜
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1